論文の概要: Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning
- arxiv url: http://arxiv.org/abs/2008.05789v1
- Date: Thu, 13 Aug 2020 10:08:12 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 22:19:39.449228
- Title: Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning
- Title(参考訳): look, listen, and attend: 自己教師付き視聴覚表現学習のための協調ネットワーク
- Authors: Ying Cheng, Ruize Wang, Zhihao Pan, Rui Feng, Yuejie Zhang
- Abstract要約: 音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
- 参考スコア(独自算出の注目度): 17.6311804187027
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: When watching videos, the occurrence of a visual event is often accompanied
by an audio event, e.g., the voice of lip motion, the music of playing
instruments. There is an underlying correlation between audio and visual
events, which can be utilized as free supervised information to train a neural
network by solving the pretext task of audio-visual synchronization. In this
paper, we propose a novel self-supervised framework with co-attention mechanism
to learn generic cross-modal representations from unlabelled videos in the
wild, and further benefit downstream tasks. Specifically, we explore three
different co-attention modules to focus on discriminative visual regions
correlated to the sounds and introduce the interactions between them.
Experiments show that our model achieves state-of-the-art performance on the
pretext task while having fewer parameters compared with existing methods. To
further evaluate the generalizability and transferability of our approach, we
apply the pre-trained model on two downstream tasks, i.e., sound source
localization and action recognition. Extensive experiments demonstrate that our
model provides competitive results with other self-supervised methods, and also
indicate that our approach can tackle the challenging scenes which contain
multiple sound sources.
- Abstract(参考訳): ビデオを見るとき、視覚イベントの発生には、例えば、唇の動きの声、楽器の演奏の音楽など、オーディオイベントが伴うことが多い。
音声と視覚のイベントの間には基本的な相関関係があり、音声と視覚の同期のプリテキストタスクを解決し、ニューラルネットワークを訓練するための無料の教師付き情報として使用できる。
本稿では,非ラベリングビデオから汎用的なクロスモーダル表現を学習し,さらに下流の作業に役立てるための,コアテンション機構を備えた新しい自己教師型フレームワークを提案する。
具体的には,音に関連付けられた識別的視覚領域に焦点をあてる3つの異なるコアテンションモジュールを探索し,それらの相互作用を紹介する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
提案手法の一般化性と伝達性をさらに評価するため,2つの下流タスク,すなわち音源定位と動作認識に事前学習モデルを適用した。
実験により,本モデルが他の自己監督手法と競合する結果をもたらすことを示すとともに,複数の音源を含む難題に対処できることを示す。
関連論文リスト
- Language-Guided Audio-Visual Source Separation via Trimodal Consistency [64.0580750128049]
この課題の鍵となる課題は、発音対象の言語的記述と、その視覚的特徴と、音声波形の対応する成分とを関連付けることである。
2つの新たな損失関数を通して擬似目標管理を行うために、既成の視覚言語基盤モデルを適用する。
3つの音声・視覚的分離データセットに対する自己教師型アプローチの有効性を実証する。
論文 参考訳(メタデータ) (2023-03-28T22:45:40Z) - Self-Supervised Audio-Visual Representation Learning with Relaxed
Cross-Modal Temporal Synchronicity [12.995632804090198]
CrissCrossは、音声視覚表現を学習するための自己教師型フレームワークである。
音声と視覚の時間的同期を緩和することにより、ネットワークは強い時間不変表現を学習することを示す。
論文 参考訳(メタデータ) (2021-11-09T20:24:19Z) - LiRA: Learning Visual Speech Representations from Audio through
Self-supervision [53.18768477520411]
セルフスーパービジョン(LiRA)による音声からの視覚的表現の学習を提案する。
具体的には、ResNet+Conformerモデルをトレーニングし、未学習の視覚音声から音響的特徴を予測する。
提案手法は,WildデータセットのLip Readingにおいて,他の自己教師的手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-16T23:20:06Z) - Learning Audio-Visual Correlations from Variational Cross-Modal
Generation [35.07257471319274]
我々は,モーダル間生成の観点から,音声と視覚の相関関係を自己監督的に学習する。
学習した相関関係は、オーディオ-視覚的クロスモーダルなローカライゼーションや検索など、複数の下流タスクに容易に適用できる。
論文 参考訳(メタデータ) (2021-02-05T21:27:00Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。