論文の概要: Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning
- arxiv url: http://arxiv.org/abs/2106.06939v1
- Date: Sun, 13 Jun 2021 07:41:15 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-17 11:19:26.064372
- Title: Cross-Modal Attention Consistency for Video-Audio Unsupervised Learning
- Title(参考訳): 教師なし学習におけるクロスモーダル注意一貫性
- Authors: Shaobo Min, Qi Dai, Hongtao Xie, Chuang Gan, Yongdong Zhang, Jingdong
Wang
- Abstract要約: クロスモーダル相関は、ビデオ教師なし表現学習に固有の監督を提供する。
本稿では,双方向の局所通信特性を探索するために,CMAC(Cross-Modal Attention Consistency)というプレテキストタスクを導入する。
CMACは、視覚信号から純粋に発生する局所的注意と、音響信号の誘導の下で発生する対象的注意とを一致させることを目的としている。
- 参考スコア(独自算出の注目度): 141.38505371646482
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Cross-modal correlation provides an inherent supervision for video
unsupervised representation learning. Existing methods focus on distinguishing
different video clips by visual and audio representations. We human visual
perception could attend to regions where sounds are made, and our auditory
perception could also ground their frequencies of sounding objects, which we
call bidirectional local correspondence. Such supervision is intuitive but not
well explored in the contrastive learning framework. This paper introduces a
pretext task, Cross-Modal Attention Consistency (CMAC), for exploring the
bidirectional local correspondence property. The CMAC approach aims to align
the regional attention generated purely from the visual signal with the target
attention generated under the guidance of acoustic signal, and do a similar
alignment for frequency grounding on the acoustic attention. Accompanied by a
remoulded cross-modal contrastive loss where we consider additional
within-modal interactions, the CMAC approach works effectively for enforcing
the bidirectional alignment. Extensive experiments on six downstream benchmarks
demonstrate that CMAC can improve the state-of-the-art performance on both
visual and audio modalities.
- Abstract(参考訳): クロスモーダル相関は、ビデオ教師なし表現学習に固有の監督を与える。
既存の方法は、視覚的および音声的表現による異なるビデオクリップの識別に焦点を当てている。
人間の視覚知覚は音が発する領域に到達し、聴覚知覚は音の周波数を測り、それを双方向の局所対応と呼ぶ。
このような監督は直感的であるが、対照的な学習フレームワークでは十分に研究されていない。
本稿では,双方向局所対応性を検討するためのプリテキストタスクcross-modal attention consistency (cmac)を提案する。
CMACアプローチは、視覚信号から純粋に発生する局所的注意と音響信号の誘導により発生する対象的注意とを一致させることを目的としており、音響的注意に基づく周波数グラウンドリングに類似したアライメントを行う。
CMACアプローチは、追加のモード内相互作用を考慮することで、双方向アライメントの強化に有効である。
6つのダウンストリームベンチマークでの大規模な実験により、CMACはビジュアルとオーディオの両モードで最先端のパフォーマンスを向上させることができることが示された。
関連論文リスト
- Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
Dense-localization Audio-Visual Events (DAVE) は、未トリミングビデオで同時に見られるイベントの時間境界と対応するカテゴリを特定することを目的としている。
既存の手法では、音声と視覚の表現を明示的なモーダルなアライメント制約なしに別々に符号化する。
DAVEのための局所性を考慮したクロスモーダル対応学習フレームワークであるLOCOを提案する。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Progressive Confident Masking Attention Network for Audio-Visual Segmentation [8.591836399688052]
Audio-Visualとして知られる課題が出現し、シーン内のオブジェクトを音化するためのセグメンテーションマップを作成することを目的としている。
PMCANet(Progressive Confident Masking Attention Network)を紹介する。
注意機構を利用して、音声信号と視覚フレームの本質的な相関を明らかにする。
論文 参考訳(メタデータ) (2024-06-04T14:21:41Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Rethink Cross-Modal Fusion in Weakly-Supervised Audio-Visual Video
Parsing [58.9467115916639]
本研究では, 核融合における非相関なクロスモーダルコンテキストを低減するために, メッセンジャー誘導型中間核融合変換器を提案する。
メッセンジャーは、完全なクロスモーダルコンテキストをコンパクトな表現に凝縮し、有用なクロスモーダル情報のみを保持する。
そこで我々は,無関係な音声情報の視覚事象予測への影響を抑えるために,クロスオーディオ予測整合性を提案する。
論文 参考訳(メタデータ) (2023-11-14T13:27:03Z) - CM-PIE: Cross-modal perception for interactive-enhanced audio-visual
video parsing [23.85763377992709]
本稿では,セグメントベースアテンションモジュールを適用して,細粒度の特徴を学習できる対話型クロスモーダル認識手法(CM-PIE)を提案する。
当社のモデルでは、Look、Listen、Parseデータセットのパースパフォーマンスが改善されています。
論文 参考訳(メタデータ) (2023-10-11T14:15:25Z) - Look at What I'm Doing: Self-Supervised Spatial Grounding of Narrations
in Instructional Videos [78.34818195786846]
ビデオにおけるナレーション相互作用を空間的局所化するタスクについて紹介する。
提案手法の鍵となるのは,映像の大規模コーパスにおける自己スーパービジョンとの相互作用の空間的ローカライズを学習する能力である。
学習中のコントラスト損失を効果的に最適化できる多層マルチモーダルアテンションネットワークを提案する。
論文 参考訳(メタデータ) (2021-10-20T14:45:13Z) - Unsupervised Sound Localization via Iterative Contrastive Learning [106.56167882750792]
データアノテーションを必要としない反復型コントラスト学習フレームワークを提案する。
次に、擬似ラベルを用いて、同じビデオからサンプリングされた視覚信号と音声信号の相関関係を学習する。
我々の反復的戦略は徐々に音像の局所化を奨励し、非発声領域と参照音声との相関を減少させる。
論文 参考訳(メタデータ) (2021-04-01T07:48:29Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - How to Teach DNNs to Pay Attention to the Visual Modality in Speech
Recognition [10.74796391075403]
本研究では、AV Alignの内部動作を調査し、オーディオ・視覚アライメントパターンを可視化する。
AV Alignは、一般に単調なパターンで、TD-TIMITのフレームレベルで、音声の音響的および視覚的表現を調整することを学習している。
本稿では,視覚的表現から唇関連行動単位を予測する正規化手法を提案する。
論文 参考訳(メタデータ) (2020-04-17T13:59:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。