論文の概要: Weakly Supervised Face Naming with Symmetry-Enhanced Contrastive Loss
- arxiv url: http://arxiv.org/abs/2210.08957v1
- Date: Mon, 17 Oct 2022 11:51:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-18 19:46:56.475927
- Title: Weakly Supervised Face Naming with Symmetry-Enhanced Contrastive Loss
- Title(参考訳): 対称強調コントラスト損失を伴う弱教師付き顔命名法
- Authors: Tingyu Qu, Tinne Tuytelaars, Marie-Francine Moens
- Abstract要約: SECLAは、Symmetry-Enhanced Contrastive Learningベースのアライメントモデルである。
モデルのバリエーションであるSECLA-Bは、人間がしているように名前と顔を調整することを学ぶ。
我々は、Wildデータセットにおけるラベル付き顔とCelebrity Togetherデータセットの両方について、最先端の結果を得る。
- 参考スコア(独自算出の注目度): 50.32343933000289
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We revisit the weakly supervised cross-modal face-name alignment task; that
is, given an image and a caption, we label the faces in the image with the
names occurring in the caption. Whereas past approaches have learned the latent
alignment between names and faces by uncertainty reasoning over a set of images
and their respective captions, in this paper, we rely on appropriate loss
functions to learn the alignments in a neural network setting and propose SECLA
and SECLA-B. SECLA is a Symmetry-Enhanced Contrastive Learning-based Alignment
model that can effectively maximize the similarity scores between corresponding
faces and names in a weakly supervised fashion. A variation of the model,
SECLA-B, learns to align names and faces as humans do, that is, learning from
easy to hard cases to further increase the performance of SECLA. More
specifically, SECLA-B applies a two-stage learning framework: (1) Training the
model on an easy subset with a few names and faces in each image-caption pair.
(2) Leveraging the known pairs of names and faces from the easy cases using a
bootstrapping strategy with additional loss to prevent forgetting and learning
new alignments at the same time. We achieve state-of-the-art results for both
the augmented Labeled Faces in the Wild dataset and the Celebrity Together
dataset. In addition, we believe that our methods can be adapted to other
multimodal news understanding tasks.
- Abstract(参考訳): つまり、画像とキャプションが与えられたとき、キャプションに現れる名前で画像中の顔にラベルを付ける。
過去のアプローチでは,画像の集合と各キャプションに対する不確実性の推論によって,名前と顔の関連性を学習してきたが,ニューラルネットワーク設定におけるアライメントの学習には適切な損失関数に依存し,SECLAとSECLA-Bを提案する。
seclaは対称強調型コントラスト学習に基づくアライメントモデルであり、弱い教師付きで対応する顔と名前の類似度スコアを効果的に最大化することができる。
モデルのバリエーションであるSECLA-Bは、人間がしているように名前と顔を調整すること、すなわち、簡単なケースから難しいケースまでを学ぶことで、SECLAのパフォーマンスをさらに向上させる。
より具体的には、secla-bは2段階の学習フレームワークを適用する: (1) イメージキャプチャペアごとに、いくつかの名前と顔を持つ簡単なサブセットでモデルをトレーニングする。
2)新しいアライメントを忘れたり学習したりするのを防ぐために,追加損失を伴うブートストラップ戦略を用いた簡単なケースから,既知の名前と顔のペアを活用すること。
野生のデータセットのラベル付き顔とセレブのデータセットの両方について最先端の結果を得る。
さらに,本手法は他のマルチモーダルニュース理解タスクにも適用できると考えている。
関連論文リスト
- Distractors-Immune Representation Learning with Cross-modal Contrastive Regularization for Change Captioning [71.14084801851381]
変更キャプションは、類似した画像間のセマンティックな変化を簡潔に記述することを目的としている。
既存のほとんどの手法は、それらの違いを直接キャプチャし、エラーを起こしやすい特徴を得るリスクを負う。
本稿では,2つの画像表現の対応するチャネルを関連づけるイントラクタ免疫表現学習ネットワークを提案する。
論文 参考訳(メタデータ) (2024-07-16T13:00:33Z) - Open-Vocabulary Semantic Segmentation with Image Embedding Balancing [33.69721994194684]
本稿では,EBSegと呼ばれるオープン語彙セマンティックセグメンテーションのための新しいフレームワークを提案する。
AdaB Decoderは、トレーニングと新しいクラスの両方に異なるイメージ埋め込みを生成するように設計されている。
SSC Lossは画像特徴空間のクラス間の親和性とCLIPのテキスト特徴空間の親和性を調整する。
論文 参考訳(メタデータ) (2024-06-14T08:34:20Z) - Symmetrical Bidirectional Knowledge Alignment for Zero-Shot Sketch-Based
Image Retrieval [69.46139774646308]
本稿ではゼロショットスケッチベース画像検索(ZS-SBIR)の問題点について検討する。
目に見えないカテゴリのスケッチをクエリとして使用して、同じカテゴリのイメージにマッチさせることが目的だ。
ゼロショットスケッチに基づく画像検索(SBKA)のための新しい対称双方向知識アライメントを提案する。
論文 参考訳(メタデータ) (2023-12-16T04:50:34Z) - S-CLIP: Semi-supervised Vision-Language Learning using Few Specialist
Captions [69.01985134519244]
対照的な言語画像事前学習(CLIP)のような視覚言語モデルは、自然画像領域において顕著な結果を示した。
S-CLIPはCLIPを訓練するための半教師付き学習手法であり、追加の未ペア画像を利用する。
S-CLIPは、ゼロショット分類でCLIPを10%改善し、リモートセンシングベンチマークで画像テキスト検索で4%改善した。
論文 参考訳(メタデータ) (2023-05-23T14:18:11Z) - Adapt and Align to Improve Zero-Shot Sketch-Based Image Retrieval [85.39613457282107]
スケッチに基づく画像検索のクロスドメイン性は困難である。
重要な課題に対処する効果的なAdaptとAlignのアプローチを提案する。
ゼロショットシナリオにおける画像テキスト基盤モデル(例えばCLIP)の最近の進歩に触発されて、学習したイメージの埋め込みを、より意味的なテキスト埋め込みと明確に整合させ、見知らぬクラスから見つからないクラスへの所望の知識伝達を実現する。
論文 参考訳(メタデータ) (2023-05-09T03:10:15Z) - Weakly-Supervised Text-driven Contrastive Learning for Facial Behavior
Understanding [12.509298933267221]
本稿では,顔行動理解のための2段階のコントラスト学習フレームワークについて紹介する。
第1段階は、粗い活動情報を用いて構築された正負の対から表現を学習する、弱教師付きコントラスト学習法である。
第2段階は、画像と対応するテキストラベル名との類似性を最大化することにより、表情や顔の動作単位の認識を訓練することを目的としている。
論文 参考訳(メタデータ) (2023-03-31T18:21:09Z) - Learning Contrastive Representation for Semantic Correspondence [150.29135856909477]
セマンティックマッチングのためのマルチレベルコントラスト学習手法を提案する。
画像レベルのコントラスト学習は、畳み込み特徴が類似したオブジェクト間の対応を見出すための鍵となる要素であることを示す。
論文 参考訳(メタデータ) (2021-09-22T18:34:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。