論文の概要: Self-supervised Contrastive Learning for Audio-Visual Action Recognition
- arxiv url: http://arxiv.org/abs/2204.13386v2
- Date: Mon, 20 Mar 2023 07:33:09 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-24 04:34:52.936238
- Title: Self-supervised Contrastive Learning for Audio-Visual Action Recognition
- Title(参考訳): 聴覚行動認識のための自己教師型コントラスト学習
- Authors: Yang Liu, Ying Tan, Haoyuan Lan
- Abstract要約: オーディオとヴィジュアルモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。
本稿では,行動認識のための識別的視覚的表現を学習するための,聴覚・視覚コントラスト学習(A)というエンドツーエンドの自己教師型フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.188231323934023
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The underlying correlation between audio and visual modalities can be
utilized to learn supervised information for unlabeled videos. In this paper,
we propose an end-to-end self-supervised framework named Audio-Visual
Contrastive Learning (AVCL), to learn discriminative audio-visual
representations for action recognition. Specifically, we design an attention
based multi-modal fusion module (AMFM) to fuse audio and visual modalities. To
align heterogeneous audio-visual modalities, we construct a novel
co-correlation guided representation alignment module (CGRA). To learn
supervised information from unlabeled videos, we propose a novel
self-supervised contrastive learning module (SelfCL). Furthermore, we build a
new audio-visual action recognition dataset named Kinetics-Sounds100.
Experimental results on Kinetics-Sounds32 and Kinetics-Sounds100 datasets
demonstrate the superiority of our AVCL over the state-of-the-art methods on
large-scale action recognition benchmark.
- Abstract(参考訳): オーディオとヴィジュアルモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。
本稿では,行動認識のための識別的視覚表現を学習するための,AVCL(Audio-Visual Contrastive Learning)というエンドツーエンドの自己教師型フレームワークを提案する。
具体的には,音声と視覚を融合するアテンションベースマルチモーダル融合モジュール(amfm)を設計した。
異種音声・視覚的モダリティの整合を図るため,新たにCGRA(co-correlation guided representation alignment module)を構築した。
ラベルのないビデオから教師付き情報を学習するために,自己監督型コントラスト学習モジュール(SelfCL)を提案する。
さらに,Kinetics-Sounds100という音声視覚行動認識データセットを構築した。
Kinetics-Sounds32 と Kinetics-Sounds100 データセットの実験結果は,大規模行動認識ベンチマークにおける最先端手法よりも AVCL の方が優れていることを示す。
関連論文リスト
- SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Contrastive Audio-Visual Masked Autoencoder [85.53776628515561]
CAV-MAE(Contrastive Audio-Visual Masked Auto-Encoder)
我々の完全自己指導型CAV-MAEは、VGGSoundで65.9%の新しいSOTA精度を実現する。
論文 参考訳(メタデータ) (2022-10-02T07:29:57Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - Contrastive Learning of General-Purpose Audio Representations [33.15189569532155]
音声の汎用表現を学習するための自己教師付き事前学習手法であるCOLAを紹介する。
我々は、コンピュータビジョンと強化学習のコントラスト学習の最近の進歩に基づいて、軽量で実装が容易なオーディオモデルを設計する。
論文 参考訳(メタデータ) (2020-10-21T11:56:22Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z) - Curriculum Audiovisual Learning [113.20920928789867]
本稿では,ソフトクラスタリングモジュールを音響・視覚コンテンツ検出装置として導入するフレキシブル・オーディオビジュアル・モデルを提案する。
音声視覚学習の難しさを軽減するため,簡単なシーンから複雑なシーンまでモデルを訓練する新しい学習戦略を提案する。
本手法は,外的視覚的監督に言及することなく,音の分離において同等の性能を示す。
論文 参考訳(メタデータ) (2020-01-26T07:08:47Z) - Visually Guided Self Supervised Learning of Speech Representations [62.23736312957182]
音声視覚音声の文脈における視覚的モダリティによって導かれる音声表現を学習するためのフレームワークを提案する。
音声クリップに対応する静止画像をアニメーション化し、音声セグメントの実際の映像にできるだけ近いよう、生成した映像を最適化する。
我々は,感情認識のための技術成果と,音声認識のための競争結果を達成する。
論文 参考訳(メタデータ) (2020-01-13T14:53:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。