論文の概要: Weakly-Supervised Text-driven Contrastive Learning for Facial Behavior
Understanding
- arxiv url: http://arxiv.org/abs/2304.00058v2
- Date: Fri, 25 Aug 2023 14:31:35 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-28 17:42:12.814224
- Title: Weakly-Supervised Text-driven Contrastive Learning for Facial Behavior
Understanding
- Title(参考訳): 顔行動理解のための弱教師付きテキスト駆動コントラスト学習
- Authors: Xiang Zhang, Taoyue Wang, Xiaotian Li, Huiyuan Yang and Lijun Yin
- Abstract要約: 本稿では,顔行動理解のための2段階のコントラスト学習フレームワークについて紹介する。
第1段階は、粗い活動情報を用いて構築された正負の対から表現を学習する、弱教師付きコントラスト学習法である。
第2段階は、画像と対応するテキストラベル名との類似性を最大化することにより、表情や顔の動作単位の認識を訓練することを目的としている。
- 参考スコア(独自算出の注目度): 12.509298933267221
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Contrastive learning has shown promising potential for learning robust
representations by utilizing unlabeled data. However, constructing effective
positive-negative pairs for contrastive learning on facial behavior datasets
remains challenging. This is because such pairs inevitably encode the
subject-ID information, and the randomly constructed pairs may push similar
facial images away due to the limited number of subjects in facial behavior
datasets. To address this issue, we propose to utilize activity descriptions,
coarse-grained information provided in some datasets, which can provide
high-level semantic information about the image sequences but is often
neglected in previous studies. More specifically, we introduce a two-stage
Contrastive Learning with Text-Embeded framework for Facial behavior
understanding (CLEF). The first stage is a weakly-supervised contrastive
learning method that learns representations from positive-negative pairs
constructed using coarse-grained activity information. The second stage aims to
train the recognition of facial expressions or facial action units by
maximizing the similarity between image and the corresponding text label names.
The proposed CLEF achieves state-of-the-art performance on three in-the-lab
datasets for AU recognition and three in-the-wild datasets for facial
expression recognition.
- Abstract(参考訳): 対照的な学習は、ラベルのないデータを利用してロバスト表現を学習する有望な可能性を示している。
しかし, 顔行動データセットにおける比較学習のための効果的な正負対の構築は依然として困難である。
これは、このようなペアが必然的に被写体ID情報をエンコードするためであり、ランダムに構築されたペアは、顔行動データセットの被写体数が限られているため、類似した顔画像を押し出すことができる。
この問題に対処するために,いくつかのデータセットで提供される活動記述,粗粒度情報を利用して,画像シーケンスに関する高レベルな意味情報を提供するが,先行研究では無視されることが多い。
具体的には,顔行動理解のための2段階のContrastive Learning with Text-Embeded frameworkを提案する。
第1段階は、粗い活動情報を用いて構築された正負対から表現を学習する弱教師付きコントラスト学習法である。
第2段階は、画像と対応するテキストラベル名との類似性を最大化することにより、表情や顔動作単位の認識を訓練することを目的とする。
提案したCLEFは、AU認識のための3つの組込みデータセットと、顔認識のための3つの組込みデータセットに対して、最先端のパフォーマンスを達成する。
関連論文リスト
- SyncMask: Synchronized Attentional Masking for Fashion-centric Vision-Language Pretraining [2.9010546489056415]
視覚言語モデル (VLM) は、ペア化されたデータセットを通して、モーダル間理解において大きな進歩を遂げた。
ファッション領域では、データセットは画像とテキストで伝達される情報の間に相違を示すことが多い。
我々は、画像パッチと単語トークンをピンポイントするマスクを生成するシンクロナイズドアテンショナルマスキング(SyncMask)を提案する。
論文 参考訳(メタデータ) (2024-04-01T15:01:38Z) - Visual Analytics for Efficient Image Exploration and User-Guided Image
Captioning [35.47078178526536]
事前訓練された大規模言語画像モデルの最近の進歩は、視覚的理解の新しい時代を後押ししている。
本稿では,視覚分析の領域でよく知られた2つの問題に取り組み,(1)大規模画像データセットの効率的な探索と潜在的なデータバイアスの同定,(2)画像キャプションの評価と生成過程のステアリングを行う。
論文 参考訳(メタデータ) (2023-11-02T06:21:35Z) - Learning Transferable Pedestrian Representation from Multimodal
Information Supervision [174.5150760804929]
VAL-PATは、移動可能な表現を学習し、様々な歩行者分析タスクをマルチモーダル情報で強化する新しいフレームワークである。
まず、LUPerson-TAデータセットで事前トレーニングを行い、各画像にはテキストと属性アノテーションが含まれている。
次に、学習した表現を、人物のreID、人物属性認識、テキストベースの人物検索など、さまざまな下流タスクに転送する。
論文 参考訳(メタデータ) (2023-04-12T01:20:58Z) - Non-Contrastive Learning Meets Language-Image Pre-Training [145.6671909437841]
非コントラスト型言語画像事前学習(nCLIP)の有効性について検討する。
我々は、CLIPとnCLIPを組み合わせたマルチタスクフレームワークであるxCLIPを紹介し、nCLIPが機能セマンティクスの強化にCLIPを支援することを示す。
論文 参考訳(メタデータ) (2022-10-17T17:57:46Z) - Revisiting Self-Supervised Contrastive Learning for Facial Expression
Recognition [39.647301516599505]
我々は,自己指導型コントラスト学習の活用を再考し,表現固有の表現を強制するための3つの中核戦略を探求する。
実験の結果,提案手法は最先端の自己教師型学習法よりも優れていた。
論文 参考訳(メタデータ) (2022-10-08T00:04:27Z) - Self-Supervised Visual Representation Learning with Semantic Grouping [50.14703605659837]
我々は、未ラベルのシーン中心のデータから視覚表現を学習する問題に取り組む。
本研究では,データ駆動型セマンティックスロット,すなわちSlotConによる協調型セマンティックグルーピングと表現学習のためのコントラスト学習を提案する。
論文 参考訳(メタデータ) (2022-05-30T17:50:59Z) - Unified Contrastive Learning in Image-Text-Label Space [130.31947133453406]
Unified Contrastive Learning (UniCL)は、意味的に豊かだが差別的な表現を学習する効果的な方法である。
UniCLスタンドアローンは、3つの画像分類データセットにまたがる教師あり学習手法に対抗して、純粋な画像ラベルデータに関する優れた学習者である。
論文 参考訳(メタデータ) (2022-04-07T17:34:51Z) - CRIS: CLIP-Driven Referring Image Segmentation [71.56466057776086]
エンドツーエンドのCLIP駆動参照画像フレームワーク(CRIS)を提案する。
CRISは、テキストとピクセルのアライメントを達成するために、視覚言語によるデコーディングとコントラスト学習に頼っている。
提案するフレームワークは, 後処理を伴わずに, 最先端の性能を著しく向上させる。
論文 参考訳(メタデータ) (2021-11-30T07:29:08Z) - Self-supervised Contrastive Learning of Multi-view Facial Expressions [9.949781365631557]
顔表情認識(FER)は,人間とコンピュータのインタラクションシステムにおいて重要な構成要素である。
本稿では,多視点表情のコントラスト学習(CL-MEx)を提案する。
論文 参考訳(メタデータ) (2021-08-15T11:23:34Z) - Heterogeneous Contrastive Learning: Encoding Spatial Information for
Compact Visual Representations [183.03278932562438]
本稿では,エンコーディング段階に空間情報を加えることで,対照的な目的と強いデータ拡張操作の間の学習の不整合を緩和する効果的な手法を提案する。
提案手法は,視覚表現の効率を向上し,自己指導型視覚表現学習の今後の研究を刺激する鍵となるメッセージを提供する。
論文 参考訳(メタデータ) (2020-11-19T16:26:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。