論文の概要: Semi-Supervised Audio-Visual Video Action Recognition with Audio Source Localization Guided Mixup
- arxiv url: http://arxiv.org/abs/2503.02284v1
- Date: Tue, 04 Mar 2025 05:13:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-05 19:24:02.620738
- Title: Semi-Supervised Audio-Visual Video Action Recognition with Audio Source Localization Guided Mixup
- Title(参考訳): 音源定位誘導混合による半教師付きオーディオ映像行動認識
- Authors: Seokun Kang, Taehwan Kim,
- Abstract要約: 映像と音声を併用した映像行動認識のための音声・視覚SSLを提案する。
UCF-51, Kinetics-400, VGGSoundデータセットの実験では,提案手法の優れた性能を示す。
- 参考スコア(独自算出の注目度): 2.80888070977859
- License:
- Abstract: Video action recognition is a challenging but important task for understanding and discovering what the video does. However, acquiring annotations for a video is costly, and semi-supervised learning (SSL) has been studied to improve performance even with a small number of labeled data in the task. Prior studies for semi-supervised video action recognition have mostly focused on using single modality - visuals - but the video is multi-modal, so utilizing both visuals and audio would be desirable and improve performance further, which has not been explored well. Therefore, we propose audio-visual SSL for video action recognition, which uses both visual and audio together, even with quite a few labeled data, which is challenging. In addition, to maximize the information of audio and video, we propose a novel audio source localization-guided mixup method that considers inter-modal relations between video and audio modalities. In experiments on UCF-51, Kinetics-400, and VGGSound datasets, our model shows the superior performance of the proposed semi-supervised audio-visual action recognition framework and audio source localization-guided mixup.
- Abstract(参考訳): ビデオのアクション認識は、ビデオが何をしているかを理解し、発見する上で、難しいが重要なタスクである。
しかし、ビデオのアノテーションの取得にはコストがかかり、タスク中にラベル付きデータが少ない場合でも、性能向上のために半教師付き学習(SSL)が研究されている。
半教師付きビデオアクション認識の以前の研究は、主に単一のモダリティ(視覚)の使用に焦点を当てていたが、ビデオはマルチモーダルであるため、ビジュアルとオーディオの両方を活用することが望ましいため、パフォーマンスをさらに向上することが望まれる。
そこで本稿では,ビデオ行動認識のための音声-視覚SSLを提案する。
また,音声と映像の情報を最大化するために,動画と音声のモダリティ間のモーダル関係を考慮した新しい音源定位誘導混合手法を提案する。
UCF-51, Kinetics-400, VGGSoundデータセットを用いた実験では,提案した半教師付き音声視覚行動認識フレームワークと音源定位誘導混合方式の優れた性能を示した。
関連論文リスト
- Audio-visual training for improved grounding in video-text LLMs [1.9320359360360702]
本稿では,音声視覚入力を明示的に処理するモデルアーキテクチャを提案する。
我々は、ビデオインストラクションチューニングデータセットからオーディオデータと視覚データの両方でモデルをトレーニングする。
音声-視覚モデルのより良い評価のために、人間による注釈付きベンチマークデータセットもリリースする。
論文 参考訳(メタデータ) (2024-07-21T03:59:14Z) - Bootstrapping Audio-Visual Segmentation by Strengthening Audio Cues [75.73217916395386]
双方向ブリッジを用いた双方向オーディオ・ビジュアルデコーダ(BAVD)を提案する。
この相互作用はモダリティの不均衡を狭め、統合されたオーディオ視覚表現のより効果的な学習を促進する。
また,BAVDの微粒化誘導として,音声・視覚的フレームワイド同期のための戦略を提案する。
論文 参考訳(メタデータ) (2024-02-04T03:02:35Z) - Text-to-feature diffusion for audio-visual few-shot learning [59.45164042078649]
ビデオデータから学ぶことは難しいし、あまり研究されていないが、もっと安いセットアップだ。
3つのデータセットに対して,音声・視覚的数ショット映像分類ベンチマークを導入する。
AV-DIFFは,提案した音声・視覚的少数ショット学習のベンチマークにおいて,最先端の性能が得られることを示す。
論文 参考訳(メタデータ) (2023-09-07T17:30:36Z) - Exploring the Role of Audio in Video Captioning [59.679122191706426]
本稿では,キャプションの音響モダリティの可能性をフル活用することを目的とした音声視覚フレームワークを提案する。
本稿では,音声とビデオ間の情報交換を改善するため,新たなローカル・グローバル融合機構を提案する。
論文 参考訳(メタデータ) (2023-06-21T20:54:52Z) - MAViL: Masked Audio-Video Learners [68.61844803682145]
本研究では,masked Audio-Video Learningers (MAViL) を用いて映像表現の学習を行う。
MAViLによる事前トレーニングにより、音声視覚分類および検索タスクにおいて、モデルの性能が向上する。
自己監督型オーディオ視覚モデルが初めて、ベンチマークの外部監視を使用するモデルよりも優れています。
論文 参考訳(メタデータ) (2022-12-15T18:59:59Z) - Role of Audio in Audio-Visual Video Summarization [8.785359786012302]
本稿では,GRUとアテンションベースネットワークを融合した4種類の音声・視覚情報の統合を目的とした,新しい音声・視覚映像要約フレームワークを提案する。
視聴覚映像要約のためのF1スコアとKendall-tauスコアの改善を実現するTVSumデータセットの実験的検討
論文 参考訳(メタデータ) (2022-12-02T09:11:49Z) - Learnable Irrelevant Modality Dropout for Multimodal Action Recognition
on Modality-Specific Annotated Videos [10.478479158063982]
本稿では,アクション認識のための視覚特異的アノテーション付きビデオにおける音声モダリティを効果的に活用するための新しいフレームワークを提案する。
我々は、各ビデオラベルをK関連オーディオラベルにマッピングするセマンティックオーディオビデオラベル辞書(SAVLD)を構築した。
また、視覚的モダリティを効率的にモデル化する2ストリームビデオトランスも提案する。
論文 参考訳(メタデータ) (2022-03-06T17:31:06Z) - AudioVisual Video Summarization [103.47766795086206]
ビデオ要約では、既存のアプローチは音声情報を無視しながら視覚情報を利用するだけだ。
本稿では,映像要約作業における音声情報と視覚情報を協調的に活用し,これを実現するためにAVRN(AudioVisual Recurrent Network)を開発することを提案する。
論文 参考訳(メタデータ) (2021-05-17T08:36:10Z) - Learning Speech Representations from Raw Audio by Joint Audiovisual
Self-Supervision [63.564385139097624]
生音声波形から自己教師付き音声表現を学習する手法を提案する。
音声のみの自己スーパービジョン(情報的音響属性の予測)と視覚的自己スーパービジョン(音声から発話顔を生成する)を組み合わせることで生音声エンコーダを訓練する。
本研究は,音声表現学習におけるマルチモーダル・セルフ・スーパービジョンの可能性を示すものである。
論文 参考訳(メタデータ) (2020-07-08T14:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。