論文の概要: Looking Similar, Sounding Different: Leveraging Counterfactual
Cross-Modal Pairs for Audiovisual Representation Learning
- arxiv url: http://arxiv.org/abs/2304.05600v1
- Date: Wed, 12 Apr 2023 04:17:45 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-13 16:05:53.282884
- Title: Looking Similar, Sounding Different: Leveraging Counterfactual
Cross-Modal Pairs for Audiovisual Representation Learning
- Title(参考訳): 類似しているように聞こえる:オーディオビジュアル表現学習のための反事実的クロスモーダルペアの活用
- Authors: Nikhil Singh, Chih-Wei Wu, Iroro Orife, Mahdi Kalayeh
- Abstract要約: 映画と呼ばれるバージョンを使って、クロスモーダルなコントラスト学習を強化しています。
提案手法は,同じビデオと同じような音声コンテンツでのみ異なる,異種音声トラックを表現できることを学習する。
- 参考スコア(独自算出の注目度): 6.169259577480192
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Audiovisual representation learning typically relies on the correspondence
between sight and sound. However, there are often multiple audio tracks that
can correspond with a visual scene. Consider, for example, different
conversations on the same crowded street. The effect of such counterfactual
pairs on audiovisual representation learning has not been previously explored.
To investigate this, we use dubbed versions of movies to augment cross-modal
contrastive learning. Our approach learns to represent alternate audio tracks,
differing only in speech content, similarly to the same video. Our results show
that dub-augmented training improves performance on a range of auditory and
audiovisual tasks, without significantly affecting linguistic task performance
overall. We additionally compare this approach to a strong baseline where we
remove speech before pretraining, and find that dub-augmented training is more
effective, including for paralinguistic and audiovisual tasks where speech
removal leads to worse performance. These findings highlight the importance of
considering speech variation when learning scene-level audiovisual
correspondences and suggest that dubbed audio can be a useful augmentation
technique for training audiovisual models toward more robust performance.
- Abstract(参考訳): 視覚表現学習は一般的に視覚と音の対応に依存する。
しかし、視覚的なシーンに対応可能な複数のオーディオトラックがしばしば存在する。
例えば、同じ混雑した通りで異なる会話を考えてみましょう。
このような対物対が視聴覚表現学習に与える影響については,これまで検討されていない。
そこで本研究では,映画と称されるバージョンを用いて,クロスモーダルコントラスト学習を強化した。
提案手法は,同じビデオと同じような音声コンテンツでのみ異なる音声トラックを表現することを学ぶ。
以上の結果から,dub-augmented trainingは,言語的タスク全体のパフォーマンスに大きな影響を与えることなく,聴覚的および聴覚的タスクのパフォーマンスを向上させることが示された。
さらに,このアプローチを,事前学習前の音声除去を行う強固なベースラインと比較し,音声除去がパフォーマンスを低下させるパラ言語的・視聴覚的タスクなど,dub-augmentedトレーニングがより効果的であることを見出した。
これらの知見は、シーンレベルの音声視覚対応を学習する際の音声変化を考慮することの重要性を強調し、より堅牢なパフォーマンスに向けてオーディオ視覚モデルを訓練する上で有用な拡張手法であることを示す。
関連論文リスト
- From Vision to Audio and Beyond: A Unified Model for Audio-Visual Representation and Generation [17.95017332858846]
本稿では,視覚表現学習と視覚音声生成のギャップを埋める新しいフレームワークであるVision to Audio and Beyond(VAB)を紹介する。
VABは、事前訓練されたオーディオトークンライザと画像エンコーダを使用して、それぞれ音声トークンと視覚的特徴を取得する。
実験では,ビデオから高品質な音声を生成するためのVABの効率と,セマンティック・オーディオ・視覚的特徴を習得する能力について紹介した。
論文 参考訳(メタデータ) (2024-09-27T20:26:34Z) - Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - VisualVoice: Audio-Visual Speech Separation with Cross-Modal Consistency [111.55430893354769]
ビデオでは、同時の背景音や他の人間のスピーカーにもかかわらず、顔に関連するスピーチを抽出することを目的としています。
本手法は,非ラベル映像から音声-視覚音声分離とクロスモーダル話者埋め込みを共同で学習する。
音声-視覚音声分離と強化のための5つのベンチマークデータセットで最新の結果が得られます。
論文 参考訳(メタデータ) (2021-01-08T18:25:24Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Deep Audio-Visual Learning: A Survey [53.487938108404244]
現在の音声・視覚学習タスクを4つのサブフィールドに分割する。
本稿では,各サブフィールドに残る課題だけでなく,最先端の手法についても論じる。
一般的に使用されるデータセットとパフォーマンスメトリクスを要約します。
論文 参考訳(メタデータ) (2020-01-14T13:11:21Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。