論文の概要: Past and Future Motion Guided Network for Audio Visual Event
Localization
- arxiv url: http://arxiv.org/abs/2205.03802v1
- Date: Sun, 8 May 2022 07:26:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-11 07:04:38.371276
- Title: Past and Future Motion Guided Network for Audio Visual Event
Localization
- Title(参考訳): 映像イベント定位のための動き誘導ネットワークの過去と未来
- Authors: Tingxiu Chen, Jianqin Yin, Jin Tang
- Abstract要約: 目的は、音声視覚イベントを含むセグメントを検出し、未トリミングビデオからイベントカテゴリを認識することである。
ビデオから映像を抽出するための過去と未来の動き抽出モジュール(pf-ME)を提案する。
我々はまた、過去と将来の視覚運動を通して、オーディオモダリティにおける興味深い出来事に関連する情報に焦点を合わせるために、動き誘導型オーディオアテンション(MGAA)モジュールを提案する。
- 参考スコア(独自算出の注目度): 35.163384894833534
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In recent years, audio-visual event localization has attracted much
attention. It's purpose is to detect the segment containing audio-visual events
and recognize the event category from untrimmed videos. Existing methods use
audio-guided visual attention to lead the model pay attention to the spatial
area of the ongoing event, devoting to the correlation between audio and visual
information but ignoring the correlation between audio and spatial motion. We
propose a past and future motion extraction (pf-ME) module to mine the visual
motion from videos ,embedded into the past and future motion guided network
(PFAGN), and motion guided audio attention (MGAA) module to achieve focusing on
the information related to interesting events in audio modality through the
past and future visual motion. We choose AVE as the experimental verification
dataset and the experiments show that our method outperforms the
state-of-the-arts in both supervised and weakly-supervised settings.
- Abstract(参考訳): 近年,音声・視覚イベントのローカライゼーションが注目されている。
目的は、視聴覚イベントを含むセグメントを検出し、未トリミングビデオからイベントカテゴリを認識することである。
既存の手法では、モデルが現在進行中のイベントの空間領域に注意を払い、音声と視覚情報の相関を強調するが、音声と空間の動きの相関は無視する。
本研究では,過去と未来の動き誘導ネットワーク(PFAGN)に埋め込まれた映像から映像を抽出する過去と未来の動き抽出(pf-ME)モジュールと,過去と将来の視覚運動を通してのオーディオモダリティの興味深い出来事に関連する情報に焦点を合わせるための動き誘導オーディオアテンション(MGAA)モジュールを提案する。
AVEを実験的検証データセットとして選択し,本手法が教師付きおよび弱教師付き設定において最先端の手法より優れていることを示す。
関連論文リスト
- CACE-Net: Co-guidance Attention and Contrastive Enhancement for Effective Audio-Visual Event Localization [11.525177542345215]
CACE-Netは、音声信号だけで視覚情報を案内する既存の方法とは異なる。
本稿では、双方向の双方向の注意誘導を適応的に行うための、オーディオ-視覚協調誘導機構を提案する。
AVEデータセットの実験では、CACE-Netがオーディオ視覚イベントローカライゼーションタスクに新しいベンチマークを設定している。
論文 参考訳(メタデータ) (2024-08-04T07:48:12Z) - Label-anticipated Event Disentanglement for Audio-Visual Video Parsing [61.08434062821899]
我々は新しいデコードパラダイムであるアンダーライン・サンダーライン・エンダーライン・アンダーライン・インダーライン・プロジェクション(LEAP)を導入する。
LEAPは、音声/視覚セグメントの符号化された潜在機能を意味的に独立したラベル埋め込みに反復的に投影する。
LEAPパラダイムを促進するために,新しい音声・視覚的類似性損失関数を含むセマンティック・アウェア・最適化戦略を提案する。
論文 参考訳(メタデータ) (2024-07-11T01:57:08Z) - Cooperative Dual Attention for Audio-Visual Speech Enhancement with
Facial Cues [80.53407593586411]
頑健な音声音声強調(AVSE)のための唇領域を超えて顔の手がかりを活用することに注力する。
本稿では,音声関連情報を無視し,音声関連情報を顔の手がかりで捉え,AVSEの音声信号と動的に統合するDual Attention Cooperative Framework(DualAVSE)を提案する。
論文 参考訳(メタデータ) (2023-11-24T04:30:31Z) - Weakly-Supervised Action Detection Guided by Audio Narration [50.4318060593995]
ナレーション管理から学習し,RGB,モーションフロー,環境音などのマルチモーダル特徴を利用するモデルを提案する。
実験の結果,ノイズの多い音声ナレーションは優れた行動検出モデルを学ぶのに十分であることがわかった。
論文 参考訳(メタデータ) (2022-05-12T06:33:24Z) - Joint Learning of Visual-Audio Saliency Prediction and Sound Source
Localization on Multi-face Videos [101.83513408195692]
マルチタスク学習手法を提案する。
提案手法は,12種類の精度予測法より優れ,音源定位における競合的な結果が得られる。
論文 参考訳(メタデータ) (2021-11-05T14:35:08Z) - Bio-Inspired Audio-Visual Cues Integration for Visual Attention
Prediction [15.679379904130908]
視覚的注意予測(VAP)手法は、シーンを認識するための人間の選択的な注意機構をシミュレートする。
VAPタスクにはバイオインスパイアされたオーディオ・ビジュアル・キューの統合手法が提案されている。
実験は、DIEM、AVAD、Coutrot1、Coutrot2、SumMe、ETMDを含む6つの難しい視線追跡データセットで実施されている。
論文 参考訳(メタデータ) (2021-09-17T06:49:43Z) - Multi-level Attention Fusion Network for Audio-visual Event Recognition [6.767885381740951]
イベント分類は本質的にシーケンシャルでマルチモーダルである。
ディープニューラルモデルは、ビデオの最も関連性の高い時間ウィンドウと/またはモダリティに動的に集中する必要がある。
イベント認識のための視覚情報と音声情報を動的に融合するアーキテクチャであるマルチレベル注意融合ネットワーク(MAFnet)を提案する。
論文 参考訳(メタデータ) (2021-06-12T10:24:52Z) - Cross-Modal learning for Audio-Visual Video Parsing [30.331280948237428]
本稿では,映像からイベントを別々に分離するAVVPタスクに対する新しいアプローチを提案する。
AVVPは, 効果的なクロスモーダル学習を目的とした, 以下の手法の恩恵を受けることができることを示す。
論文 参考訳(メタデータ) (2021-04-03T07:07:21Z) - Look, Listen, and Attend: Co-Attention Network for Self-Supervised
Audio-Visual Representation Learning [17.6311804187027]
音声と視覚イベントの相関関係は、ニューラルネットワークをトレーニングするための自由教師付き情報として利用することができる。
本稿では,非競合ビデオから汎用的なクロスモーダル表現を学習するためのコアテンション機構を備えた,新しい自己教師型フレームワークを提案する。
実験の結果,従来の手法に比べてパラメータが少なめでありながら,プレテキストタスク上での最先端性能が得られた。
論文 参考訳(メタデータ) (2020-08-13T10:08:12Z) - Self-Supervised Learning of Audio-Visual Objects from Video [108.77341357556668]
本稿では,音源の局所化とグループ化,時間とともに情報収集を行うための光フローに着目したモデルを提案する。
本稿では,4つの下流音声指向タスクにおいて,モデルが学習する音声-視覚オブジェクトの埋め込みの有効性を実証する。
論文 参考訳(メタデータ) (2020-08-10T16:18:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。