論文の概要: Unsupervised Voice-Face Representation Learning by Cross-Modal Prototype
Contrast
- arxiv url: http://arxiv.org/abs/2204.14057v2
- Date: Mon, 2 May 2022 01:58:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-03 11:05:35.813653
- Title: Unsupervised Voice-Face Representation Learning by Cross-Modal Prototype
Contrast
- Title(参考訳): クロスモーダルプロトタイプコントラストによる教師なし音声顔表現学習
- Authors: Boqing Zhu, Kele Xu, Changjian Wang, Zheng Qin, Tao Sun, Huaimin Wang,
Yuxing Peng
- Abstract要約: 同一性ラベルを使わずに,音声映像から音声表現を学習する手法を提案する。
これまでの研究では、音声と顔の相関を確立するために、クロスモーダルなインスタンス識別タスクが用いられてきた。
比較手法を生かし, 偽陰性の悪影響に抵抗し, 正の逸脱に抵抗するクロスモーダル・プロトタイプ・コントラッシブ・ラーニング(CMPC)を提案する。
- 参考スコア(独自算出の注目度): 34.58856143210749
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present an approach to learn voice-face representations from the talking
face videos, without any identity labels. Previous works employ cross-modal
instance discrimination tasks to establish the correlation of voice and face.
These methods neglect the semantic content of different videos, introducing
false-negative pairs as training noise. Furthermore, the positive pairs are
constructed based on the natural correlation between audio clips and visual
frames. However, this correlation might be weak or inaccurate in a large amount
of real-world data, which leads to deviating positives into the contrastive
paradigm. To address these issues, we propose the cross-modal prototype
contrastive learning (CMPC), which takes advantage of contrastive methods and
resists adverse effects of false negatives and deviate positives. On one hand,
CMPC could learn the intra-class invariance by constructing semantic-wise
positives via unsupervised clustering in different modalities. On the other
hand, by comparing the similarities of cross-modal instances from that of
cross-modal prototypes, we dynamically recalibrate the unlearnable instances'
contribution to overall loss. Experiments show that the proposed approach
outperforms state-of-the-art unsupervised methods on various voice-face
association evaluation protocols. Additionally, in the low-shot supervision
setting, our method also has a significant improvement compared to previous
instance-wise contrastive learning.
- Abstract(参考訳): 同一性ラベルを使わずに,音声映像から音声表現を学習する手法を提案する。
以前の著作では、声と顔の相関を確立するために、クロスモーダルなインスタンス識別タスクを使用している。
これらの方法は異なるビデオの意味的内容を無視し、トレーニングノイズとして偽陰性ペアを導入する。
さらに、音声クリップと視覚フレームとの自然な相関に基づいて正のペアを構築する。
しかし、この相関関係は現実世界の大量のデータにおいて弱いか不正確な場合があり、これは対照的なパラダイムに正を逸脱させる。
そこで本研究では,対照法を活用し,偽陰性の悪影響に抵抗し,正を逸脱するクロスモーダル型コントラスト学習(cmpc)を提案する。
一方、CMPCは、教師なしクラスタリングを異なるモードで構成することで、クラス内不変性を学習することができた。
一方,クロスモーダル・インスタンスとクロスモーダル・プロトタイプの類似性を比較することにより,学習不能なインスタンスの全体的な損失に対する貢献を動的に再調整する。
実験の結果,提案手法は様々な音声・音声関連評価プロトコルにおいて,最先端の教師なし手法よりも優れていた。
また,低ショットの監督設定では,従来のインスタンス間比較学習に比べて有意に改善が見られた。
関連論文リスト
- KDMCSE: Knowledge Distillation Multimodal Sentence Embeddings with Adaptive Angular margin Contrastive Learning [31.139620652818838]
マルチモーダル表現の識別と一般化性を高める新しい手法であるKDMCSEを提案する。
我々はまた、角空間内のマージンを強化することにより差別的表現を強化する新しいコントラスト的目的であるAdapACSEを導入する。
論文 参考訳(メタデータ) (2024-03-26T08:32:39Z) - DenoSent: A Denoising Objective for Self-Supervised Sentence
Representation Learning [59.4644086610381]
本稿では,他の視点,すなわち文内視点から継承する新たな認知的目的を提案する。
離散ノイズと連続ノイズの両方を導入することで、ノイズの多い文を生成し、モデルを元の形式に復元するように訓練する。
我々の経験的評価は,本手法が意味的テキスト類似性(STS)と幅広い伝達タスクの両面で競合する結果をもたらすことを示した。
論文 参考訳(メタデータ) (2024-01-24T17:48:45Z) - MarginNCE: Robust Sound Localization with a Negative Margin [23.908770938403503]
本研究の目的は,自己教師型アプローチによる視覚シーンにおける音源のローカライズである。
コントラスト学習において、より厳密な決定境界を用いることで、音源定位における雑音対応の効果を軽減できることを示す。
論文 参考訳(メタデータ) (2022-11-03T16:44:14Z) - Extending Momentum Contrast with Cross Similarity Consistency
Regularization [5.085461418671174]
モーメントエンコーダユニットの遺産に基づく自己教師型表現学習手法であるExtended Momentum ContrastをMoCoファミリー構成で提案する。
交差一貫性規則の下では、任意の一対のイメージ(正あるいは負)に関連付けられた意味表現は、それらの相似性を維持するべきであると論じる。
我々は、標準のImagenet-1K線形ヘッド分類ベンチマークで競合性能を報告した。
論文 参考訳(メタデータ) (2022-06-07T20:06:56Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - Similarity Contrastive Estimation for Self-Supervised Soft Contrastive
Learning [0.41998444721319206]
優れたデータ表現は、インスタンス間の関係、つまり意味的類似性を含んでいる、と我々は主張する。
類似性コントラスト推定(SCE)と呼ばれるインスタンス間の意味的類似性を用いたコントラスト学習の新しい定式化を提案する。
我々の訓練対象はソフトコントラスト学習と見なすことができる。
論文 参考訳(メタデータ) (2021-11-29T15:19:15Z) - Contrastive Learning for Fair Representations [50.95604482330149]
訓練された分類モデルは、意図せずバイアスのある表現や予測につながる可能性がある。
対戦訓練のような既存の分類モデルのデバイアス化手法は、訓練に高価であり、最適化が困難であることが多い。
比較学習を取り入れたバイアス軽減手法を提案し、同じクラスラベルを共有するインスタンスに類似した表現を推奨する。
論文 参考訳(メタデータ) (2021-09-22T10:47:51Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z) - Audio-Visual Instance Discrimination with Cross-Modal Agreement [90.95132499006498]
本稿では,映像と音声から音声・視覚表現を学習するための自己教師型学習手法を提案する。
モーダル内識別よりも、モーダル間識別を最適化することが、ビデオやオーディオから優れた表現を学ぶ上で重要であることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。