論文の概要: Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos
- arxiv url: http://arxiv.org/abs/2203.03014v1
- Date: Sun, 6 Mar 2022 17:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-09 05:26:20.252864
- Title: Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos
- Title(参考訳): モダリティに特有なアノテーション付きビデオにおけるマルチモーダル動作認識のための学習不能なモダリティドロップアウト
- Authors: Saghir Alfasly, Jian Lu, Chen Xu, Yuru Zou
- Abstract要約: 本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
- 参考スコア(独自算出の注目度): 10.478479158063982
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the assumption that a video dataset is multimodality annotated in which
auditory and visual modalities both are labeled or class-relevant, current
multimodal methods apply modality fusion or cross-modality attention. However,
effectively leveraging the audio modality in vision-specific annotated videos
for action recognition is of particular challenge. To tackle this challenge, we
propose a novel audio-visual framework that effectively leverages the audio
modality in any solely vision-specific annotated dataset. We adopt the language
models (e.g., BERT) to build a semantic audio-video label dictionary (SAVLD)
that maps each video label to its most K-relevant audio labels in which SAVLD
serves as a bridge between audio and video datasets. Then, SAVLD along with a
pretrained audio multi-label model are used to estimate the audio-visual
modality relevance during the training phase. Accordingly, a novel learnable
irrelevant modality dropout (IMD) is proposed to completely drop out the
irrelevant audio modality and fuse only the relevant modalities. Moreover, we
present a new two-stream video Transformer for efficiently modeling the visual
modalities. Results on several vision-specific annotated datasets including
Kinetics400 and UCF-101 validated our framework as it outperforms most relevant
action recognition methods.
- Abstract(参考訳): ビデオデータセットは、聴覚と視覚のモダリティの両方がラベル付きまたはクラス関連であるマルチモダリティアノテートであると仮定すると、現在のマルチモダリティ法はモダリティ融合またはクロスモダリティ注意を適用する。
しかし,視覚特異的アノテート映像における音声モダリティを効果的に活用することは,特に課題である。
この課題に取り組むために,視覚に特有なアノテートデータセットのオーディオモダリティを効果的に活用する,新しいオーディオビジュアルフレームワークを提案する。
言語モデル(例えばBERT)を採用して、各ビデオラベルを、SAVLDがオーディオデータセットとビデオデータセットの間のブリッジとして機能するK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築する。
次に、SAVLDと事前訓練されたオーディオマルチラベルモデルを用いて、トレーニングフェーズにおけるオーディオ・視覚的モダリティの関連性を推定する。
そこで, 学習可能な非関連モーダリティ・ドロップアウト (IMD) を提案し, 非関連モーダリティを完全に排除し, 関連するモーダリティのみを融合させる。
さらに,視覚モダリティを効率的にモデル化する2ストリームビデオトランスを提案する。
kinetics400 や ucf-101 を含む視覚固有の注釈付きデータセットの結果は、最も関連するアクション認識法を上回るものとして、我々のフレームワークを検証した。
関連論文リスト
- SoundingActions: Learning How Actions Sound from Narrated Egocentric Videos [77.55518265996312]
そこで本研究では,自己教師型埋め込み技術を用いて,自己中心型ビデオから行動音を学習する手法を提案する。
我々のマルチモーダルコントラッシブ・コンセンサス・コーディング(MC3)埋め込みは、すべてのモダリティ対が一致するとき、オーディオ、言語、視覚の関連を強化します。
論文 参考訳(メタデータ) (2024-04-08T05:19:28Z) - Unsupervised Modality-Transferable Video Highlight Detection with Representation Activation Sequence Learning [7.908887001497406]
教師なしハイライト検出のためのクロスモーダル認識を用いた新しいモデルを提案する。
提案モデルでは,自己再構成タスクを通じて,画像と音声のペアデータから視覚レベルのセマンティクスを用いて表現を学習する。
実験結果から,提案手法は,他の最先端手法と比較して優れた性能を発揮することが示された。
論文 参考訳(メタデータ) (2024-03-14T13:52:03Z) - Multimodal Variational Auto-encoder based Audio-Visual Segmentation [46.67599800471001]
ECMVAEは、各モダリティの表現をモダリティ共有表現とモダリティ固有表現で分解する。
当社のアプローチでは,3.84mIOUの性能向上を図りながら,音声・視覚的セグメンテーションのための新たな最先端技術が実現されている。
論文 参考訳(メタデータ) (2023-10-12T13:09:40Z) - Auto-ACD: A Large-scale Dataset for Audio-Language Representation Learning [50.28566759231076]
高品質なキャプションを持つ音声データセットを構築するための,革新的で自動的なアプローチを提案する。
具体的には、150万以上のオーディオテキストペアからなる、大規模で高品質なオーディオ言語データセットをAuto-ACDとして構築する。
我々はLLMを用いて,抽出したマルチモーダルな手がかりによって導かれる,各音声の連接キャプションを言い換える。
論文 参考訳(メタデータ) (2023-09-20T17:59:32Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - MAiVAR-T: Multimodal Audio-image and Video Action Recognizer using
Transformers [18.72489078928417]
オーディオ画像とビデオのモダリティを組み合わせた新しいモデルを提案する。
このモデルは、オーディオ画像とビデオモダリティの組み合わせに直感的なアプローチを採用する。
ベンチマーク動作認識データセット上で実施した経験的評価は,そのモデルの顕著な性能を裏付けるものである。
論文 参考訳(メタデータ) (2023-08-01T11:00:25Z) - Accommodating Audio Modality in CLIP for Multimodal Processing [48.83906067348211]
視覚言語モデルCLIPを拡張し、視覚言語モデルAudioのマルチモーダル処理におけるオーディオモダリティに対応する。
具体的には、モーダル間およびモーダル内コントラスト学習を用いて、オーディオと他のモーダル間の相関について検討する。
提案するCLIP4VLAモデルは,ビデオ検索やビデオキャプションなど,さまざまな下流タスクで検証される。
論文 参考訳(メタデータ) (2023-03-12T06:57:01Z) - Self-supervised Contrastive Learning for Audio-Visual Action Recognition [7.188231323934023]
オーディオとヴィジュアルモダリティの相関関係を利用して、ラベルなしビデオの教師付き情報を学ぶことができる。
本稿では,行動認識のための識別的視覚的表現を学習するための,聴覚・視覚コントラスト学習(A)というエンドツーエンドの自己教師型フレームワークを提案する。
論文 参考訳(メタデータ) (2022-04-28T10:01:36Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Distilling Audio-Visual Knowledge by Compositional Contrastive Learning [51.20935362463473]
我々は、クロスモーダルな意味のギャップを埋める構成埋め込みを学びます。
3つのビデオデータセットに新しい総合的マルチモーダル蒸留ベンチマークを確立した。
論文 参考訳(メタデータ) (2021-04-22T09:31:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。