論文の概要: Audio-Visual Instance Discrimination with Cross-Modal Agreement
- arxiv url: http://arxiv.org/abs/2004.12943v3
- Date: Mon, 29 Mar 2021 20:14:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-09 05:40:07.937013
- Title: Audio-Visual Instance Discrimination with Cross-Modal Agreement
- Title(参考訳): クロスモーダル合意による音声・視覚インスタンスの識別
- Authors: Pedro Morgado, Nuno Vasconcelos, Ishan Misra
- Abstract要約: 本稿では,映像と音声から音声・視覚表現を学習するための自己教師型学習手法を提案する。
モーダル内識別よりも、モーダル間識別を最適化することが、ビデオやオーディオから優れた表現を学ぶ上で重要であることを示す。
- 参考スコア(独自算出の注目度): 90.95132499006498
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a self-supervised learning approach to learn audio-visual
representations from video and audio. Our method uses contrastive learning for
cross-modal discrimination of video from audio and vice-versa. We show that
optimizing for cross-modal discrimination, rather than within-modal
discrimination, is important to learn good representations from video and
audio. With this simple but powerful insight, our method achieves highly
competitive performance when finetuned on action recognition tasks.
Furthermore, while recent work in contrastive learning defines positive and
negative samples as individual instances, we generalize this definition by
exploring cross-modal agreement. We group together multiple instances as
positives by measuring their similarity in both the video and audio feature
spaces. Cross-modal agreement creates better positive and negative sets, which
allows us to calibrate visual similarities by seeking within-modal
discrimination of positive instances, and achieve significant gains on
downstream tasks.
- Abstract(参考訳): 映像と音声から視覚表現を学習するための自己教師付き学習手法を提案する。
本手法は,音声からの映像のクロスモーダル識別にコントラスト学習を用いる。
ビデオや音声から良質な表現を学ぶためには,モーダル内識別ではなく,クロスモーダル識別の最適化が重要であることを示す。
このシンプルで強力な洞察により,動作認識タスクを微調整して高い競争性能を実現する。
さらに,近年のコントラスト学習では,正のサンプルと負のサンプルを個別のインスタンスとして定義している。
ビデオ特徴空間と音声特徴空間の類似度を測定し,複数のインスタンスを正としてグループ化する。
クロスモーダル・アグリーメントは、より優れた正と負のセットを生成し、ポジティブ・インスタンスのモダル内識別を求めることで視覚的類似性を校正し、下流のタスクにおいて大きな利益を得ることができる。
関連論文リスト
- Looking Similar, Sounding Different: Leveraging Counterfactual Cross-Modal Pairs for Audiovisual Representation Learning [3.6204417068568424]
映画やテレビ番組と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。
提案手法では, 音声のみが異なる音声トラックの表現を学習する。
論文 参考訳(メタデータ) (2023-04-12T04:17:45Z) - Unraveling Instance Associations: A Closer Look for Audio-Visual Segmentation [18.001730255429347]
オーディオ視覚セグメント化(AVS)は、音声視覚キューに基づいて、正確に音を分割する作業である。
我々は,難易度と比較的偏りのない高画質な視覚的セグメンテーション・ベンチマークを構築するための新たなコスト効率戦略を提案する。
既存のAVSデータセットおよび我々の新しいベンチマークで行った実験により、我々の手法は最先端(SOTA)セグメンテーションの精度を達成できた。
論文 参考訳(メタデータ) (2023-04-06T09:54:06Z) - Unsupervised Voice-Face Representation Learning by Cross-Modal Prototype
Contrast [34.58856143210749]
同一性ラベルを使わずに,音声映像から音声表現を学習する手法を提案する。
これまでの研究では、音声と顔の相関を確立するために、クロスモーダルなインスタンス識別タスクが用いられてきた。
比較手法を生かし, 偽陰性の悪影響に抵抗し, 正の逸脱に抵抗するクロスモーダル・プロトタイプ・コントラッシブ・ラーニング(CMPC)を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:28:56Z) - Learning Sound Localization Better From Semantically Similar Samples [79.47083330766002]
既存のオーディオ・ヴィジュアル・ワークでは、正のソースから対応するオーディオ・ヴィジュアル・ペアを割り当て、ランダムに一致しないペアを負のソースに割り当てることで、コントラスト学習を採用している。
私たちの重要な貢献は、ハードポジトリが対応するペアに同様の応答マップを提供することを示すことです。
本稿では,VGG-SSおよびSoundNet-Flickrテストセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-02-07T08:53:55Z) - $C^3$: Compositional Counterfactual Contrastive Learning for
Video-grounded Dialogues [97.25466640240619]
映像対話システムの目的は、映像理解と対話理解を統合し、対話と映像コンテキストの両方に関連する応答を生成することである。
既存のアプローチのほとんどはディープラーニングモデルを採用しており、比較的小さなデータセットが利用可能であることを考えると、優れたパフォーマンスを実現している。
本稿では,映像対話における実例と反実例の対比学習を開発するために,合成対実的コントラスト学習の新たなアプローチを提案する。
論文 参考訳(メタデータ) (2021-06-16T16:05:27Z) - ASCNet: Self-supervised Video Representation Learning with
Appearance-Speed Consistency [62.38914747727636]
本研究では,1)明示的な監督のためのラベルの欠如,2)構造化されていない,ノイズの多い視覚情報による自己指導型映像表現学習について検討する。
既存の方法は、主にビデオクリップをインスタンスとしてコントラスト損失を使用し、互いにインスタンスを識別することで視覚的表現を学ぶ。
本稿では,ロバストな映像表現を学ぶ上で,正のサンプル間の一貫性が鍵となることを観察する。
論文 参考訳(メタデータ) (2021-06-04T08:44:50Z) - CoCon: Cooperative-Contrastive Learning [52.342936645996765]
自己教師付き視覚表現学習は効率的な映像分析の鍵である。
最近の画像表現の学習の成功は、コントラスト学習がこの課題に取り組むための有望なフレームワークであることを示唆している。
コントラスト学習の協調的バリエーションを導入し、ビュー間の相補的な情報を活用する。
論文 参考訳(メタデータ) (2021-04-30T05:46:02Z) - Robust Audio-Visual Instance Discrimination [79.74625434659443]
音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
論文 参考訳(メタデータ) (2021-03-29T19:52:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。