論文の概要: Robust Audio-Visual Instance Discrimination
- arxiv url: http://arxiv.org/abs/2103.15916v1
- Date: Mon, 29 Mar 2021 19:52:29 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-31 15:02:41.186198
- Title: Robust Audio-Visual Instance Discrimination
- Title(参考訳): ロバスト・オーディオ・ビジュアル・インスタンスの識別
- Authors: Pedro Morgado, Ishan Misra, Nuno Vasconcelos
- Abstract要約: 音声・映像表現を学習するための自己指導型学習法を提案する。
視聴覚インスタンスの識別の問題に対処し、転送学習パフォーマンスを向上させます。
- 参考スコア(独自算出の注目度): 79.74625434659443
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a self-supervised learning method to learn audio and video
representations. Prior work uses the natural correspondence between audio and
video to define a standard cross-modal instance discrimination task, where a
model is trained to match representations from the two modalities. However, the
standard approach introduces two sources of training noise. First, audio-visual
correspondences often produce faulty positives since the audio and video
signals can be uninformative of each other. To limit the detrimental impact of
faulty positives, we optimize a weighted contrastive learning loss, which
down-weighs their contribution to the overall loss. Second, since
self-supervised contrastive learning relies on random sampling of negative
instances, instances that are semantically similar to the base instance can be
used as faulty negatives. To alleviate the impact of faulty negatives, we
propose to optimize an instance discrimination loss with a soft target
distribution that estimates relationships between instances. We validate our
contributions through extensive experiments on action recognition tasks and
show that they address the problems of audio-visual instance discrimination and
improve transfer learning performance.
- Abstract(参考訳): 音声とビデオの表現を学習するための自己教師付き学習法を提案する。
先行作業では、音声とビデオの自然な対応を使用して、標準的なクロスモーダルインスタンス識別タスクを定義し、モデルが2つのモダリティからの表現にマッチするように訓練される。
しかし、この標準的アプローチは2つのトレーニングノイズをもたらす。
第一に、音声と映像の信号が互いに非形式的であるため、音声と視覚の対応はしばしば欠陥を生じる。
欠陥陽性の有害な影響を抑えるため、重み付けされた対照的な学習損失を最適化し、全体の損失に対する貢献度を下げる。
第二に、自己教師付きコントラスト学習は負のインスタンスのランダムサンプリングに依存しているため、ベースインスタンスと意味的に類似したインスタンスは誤り負として使用できる。
不良な負の影響を軽減するために,インスタンス間の関係を推定するソフトターゲット分布を用いて,インスタンス識別損失の最適化を提案する。
我々は,行動認識タスクに関する広範囲な実験を行い,音声と視覚のインスタンス識別の問題に対処し,トランスファー学習性能を向上させることを実証した。
関連論文リスト
- Enhancing Sound Source Localization via False Negative Elimination [58.87973081084927]
音源のローカライゼーションは、視覚的なシーンで音を発する物体をローカライズすることを目的としている。
印象的な結果を得る最近の研究は、典型的には対照的な学習に依存している。
本稿では,2つの個別学習方式を取り入れた新しい音声視覚学習フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-29T11:24:51Z) - Learning Audio-Visual Source Localization via False Negative Aware
Contrastive Learning [39.890616126301204]
偽陰性サンプルによるトレーニングを誤解させる問題を軽減するために,False Negative Aware Contrastive (FNAC) という新たな学習戦略を提案する。
FNACはFlickr-SoundNet、VGG-Sound、AVSBenchで最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2023-03-20T17:41:11Z) - Similarity Contrastive Estimation for Image and Video Soft Contrastive
Self-Supervised Learning [0.22940141855172028]
本稿では,インスタンス間の意味的類似性を用いたコントラスト学習の新たな定式化を提案する。
私たちのトレーニングの目標はソフトコントラストで、ポジティブに近づき、ネガティブなインスタンスを押したり引っ張ったりするための継続的分布を見積もります。
我々は,SCEが映像表現を事前学習するための最先端の結果に到達し,学習された表現が映像下流タスクに一般化可能であることを示す。
論文 参考訳(メタデータ) (2022-12-21T16:56:55Z) - MarginNCE: Robust Sound Localization with a Negative Margin [23.908770938403503]
本研究の目的は,自己教師型アプローチによる視覚シーンにおける音源のローカライズである。
コントラスト学習において、より厳密な決定境界を用いることで、音源定位における雑音対応の効果を軽減できることを示す。
論文 参考訳(メタデータ) (2022-11-03T16:44:14Z) - Unsupervised Voice-Face Representation Learning by Cross-Modal Prototype
Contrast [34.58856143210749]
同一性ラベルを使わずに,音声映像から音声表現を学習する手法を提案する。
これまでの研究では、音声と顔の相関を確立するために、クロスモーダルなインスタンス識別タスクが用いられてきた。
比較手法を生かし, 偽陰性の悪影響に抵抗し, 正の逸脱に抵抗するクロスモーダル・プロトタイプ・コントラッシブ・ラーニング(CMPC)を提案する。
論文 参考訳(メタデータ) (2022-04-28T07:28:56Z) - Learning Sound Localization Better From Semantically Similar Samples [79.47083330766002]
既存のオーディオ・ヴィジュアル・ワークでは、正のソースから対応するオーディオ・ヴィジュアル・ペアを割り当て、ランダムに一致しないペアを負のソースに割り当てることで、コントラスト学習を採用している。
私たちの重要な貢献は、ハードポジトリが対応するペアに同様の応答マップを提供することを示すことです。
本稿では,VGG-SSおよびSoundNet-Flickrテストセットに対するアプローチの有効性を示す。
論文 参考訳(メタデータ) (2022-02-07T08:53:55Z) - Robust Contrastive Learning against Noisy Views [79.71880076439297]
ノイズの多い視点に対して頑健な新しいコントラスト損失関数を提案する。
提案手法は,最新の画像,ビデオ,グラフのコントラスト学習ベンチマークに対して一貫した改善を提供する。
論文 参考訳(メタデータ) (2022-01-12T05:24:29Z) - Incremental False Negative Detection for Contrastive Learning [95.68120675114878]
本稿では,自己指導型コントラスト学習のための新たな偽陰性検出手法を提案する。
対照的な学習では、検出された偽陰性を明示的に除去する2つの戦略について議論する。
提案手法は,制限された計算内での複数のベンチマークにおいて,他の自己教師付きコントラスト学習フレームワークよりも優れる。
論文 参考訳(メタデータ) (2021-06-07T15:29:14Z) - Audio-Visual Instance Discrimination with Cross-Modal Agreement [90.95132499006498]
本稿では,映像と音声から音声・視覚表現を学習するための自己教師型学習手法を提案する。
モーダル内識別よりも、モーダル間識別を最適化することが、ビデオやオーディオから優れた表現を学ぶ上で重要であることを示す。
論文 参考訳(メタデータ) (2020-04-27T16:59:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。