論文の概要: Audio-Visual Event Localization via Recursive Fusion by Joint
Co-Attention
- arxiv url: http://arxiv.org/abs/2008.06581v1
- Date: Fri, 14 Aug 2020 21:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-30 18:02:33.299804
- Title: Audio-Visual Event Localization via Recursive Fusion by Joint
Co-Attention
- Title(参考訳): 共同作業による再帰核融合による音声・視覚イベントの定位
- Authors: Bin Duan, Hao Tang, Wei Wang, Ziliang Zong, Guowei Yang, Yan Yan
- Abstract要約: 音声-視覚イベントのローカライゼーションタスクにおける大きな課題は、複数のモーダルからの情報を効果的に融合する方法にある。
近年の研究では、核融合プロセスにおいて注意機構が有用であることが示されている。
音声・視覚イベントの局所化のためのマルチモーダル融合法を用いた新しい共同注意機構を提案する。
- 参考スコア(独自算出の注目度): 25.883429290596556
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The major challenge in audio-visual event localization task lies in how to
fuse information from multiple modalities effectively. Recent works have shown
that attention mechanism is beneficial to the fusion process. In this paper, we
propose a novel joint attention mechanism with multimodal fusion methods for
audio-visual event localization. Particularly, we present a concise yet valid
architecture that effectively learns representations from multiple modalities
in a joint manner. Initially, visual features are combined with auditory
features and then turned into joint representations. Next, we make use of the
joint representations to attend to visual features and auditory features,
respectively. With the help of this joint co-attention, new visual and auditory
features are produced, and thus both features can enjoy the mutually improved
benefits from each other. It is worth noting that the joint co-attention unit
is recursive meaning that it can be performed multiple times for obtaining
better joint representations progressively. Extensive experiments on the public
AVE dataset have shown that the proposed method achieves significantly better
results than the state-of-the-art methods.
- Abstract(参考訳): オーディオとビジュアルのイベントローカライゼーションタスクにおける大きな課題は、情報を複数のモダリティから効果的に融合する方法である。
近年の研究では、注意のメカニズムが融合プロセスに有益であることが示されている。
本稿では,音声・視覚イベントの局所化のためのマルチモーダル融合手法を用いた新しい共同注意機構を提案する。
特に,複数のモダリティから協調的に表現を効果的に学習する簡潔で有効なアーキテクチャを提案する。
当初、視覚特徴は聴覚特徴と結合し、関節表現へと変換される。
次に,共同表現を用いて視覚的特徴と聴覚的特徴に対応する。
この共同作業の助けを借りて、新たな視覚的特徴と聴覚的特徴が生み出され、両者が相互に改善された利益を享受することができる。
なお, 共同認識ユニットは, より優れた関節表現を得るために, 複数回行うことができるという意味で再帰的である点に注意が必要である。
AVEデータセットの大規模な実験により,提案手法は最先端の手法よりもはるかに優れた結果が得られることが示された。
関連論文リスト
- Audio-Visual Person Verification based on Recursive Fusion of Joint Cross-Attention [3.5803801804085347]
本稿では,クロスアテンショナル・フレームワークにおいて,共同音声・視覚的特徴表現が使用されるような,共同のクロスアテンショナル・モデルを提案する。
また,音声・視覚的特徴表現の時間的モデリングを改善するため,BLSTMについても検討する。
その結果,本モデルでは,モーダル内関係とモーダル間関係を良好に捉えることにより,融合性能が向上することが示唆された。
論文 参考訳(メタデータ) (2024-03-07T16:57:45Z) - Disentangled Interaction Representation for One-Stage Human-Object
Interaction Detection [70.96299509159981]
ヒューマン・オブジェクト・インタラクション(HOI)検出は、人間中心の画像理解のコアタスクである。
最近のワンステージ手法では、対話予測に有用な画像ワイドキューの収集にトランスフォーマーデコーダを採用している。
従来の2段階の手法は、非絡み合いで説明可能な方法で相互作用特徴を構成する能力から大きな恩恵を受ける。
論文 参考訳(メタデータ) (2023-12-04T08:02:59Z) - Unveiling the Power of Audio-Visual Early Fusion Transformers with Dense
Interactions through Masked Modeling [24.346868432774453]
人間は聴覚情報と視覚情報を統合でき、周囲の環境をより深く理解することができる。
認知心理学と神経科学の研究を通じて実証された、音声と視覚の早期融合は、マルチモーダル知覚モデルを開発するための有望な可能性を提供する。
初期融合によるオーディオ・ビジュアル・エンコーダの訓練にマスク付き再構成フレームワークを活用することで、早期融合アーキテクチャの訓練に対処する。
本研究では,局所的な音声と視覚的表現の相互作用を捉え,細粒度な相互作用を捕捉するモデルの能力を向上する,注意に基づく融合モジュールを提案する。
論文 参考訳(メタデータ) (2023-12-02T03:38:49Z) - Audio-Visual Speaker Verification via Joint Cross-Attention [4.229744884478575]
モーダル間補間情報とモーダル内情報を完全に活用するためのモーダル間共同注意
モーダル内およびモーダル間関係を効率よく活用することで、話者検証のための音声・視覚融合の性能が著しく向上することを示してきた。
論文 参考訳(メタデータ) (2023-09-28T16:25:29Z) - Exploiting Modality-Specific Features For Multi-Modal Manipulation
Detection And Grounding [54.49214267905562]
マルチモーダルな操作検出とグラウンド処理のためのトランスフォーマーベースのフレームワークを構築する。
本フレームワークは,マルチモーダルアライメントの能力を維持しながら,モダリティ特有の特徴を同時に探求する。
本稿では,グローバルな文脈的キューを各モーダル内に適応的に集約する暗黙的操作クエリ(IMQ)を提案する。
論文 参考訳(メタデータ) (2023-09-22T06:55:41Z) - Improving Audio-Visual Speech Recognition by Lip-Subword Correlation
Based Visual Pre-training and Cross-Modal Fusion Encoder [58.523884148942166]
本稿では,事前学習および微調整訓練の枠組みの下で,音声視覚音声認識(AVSR)を改善するための2つの新しい手法を提案する。
まず, マンダリンにおける口唇形状と音節レベルサブワード単位の相関について検討し, 口唇形状から良好なフレームレベル音節境界を確立する。
次に,音声誘導型クロスモーダルフュージョンエンコーダ(CMFE)ニューラルネットワークを提案する。
論文 参考訳(メタデータ) (2023-08-14T08:19:24Z) - Audio-Visual Fusion for Emotion Recognition in the Valence-Arousal Space
Using Joint Cross-Attention [15.643176705932396]
本稿では, A-V 融合のための連成連成連成連接モデルを提案し, A-V のモダリティ間で有意な特徴を抽出する。
ジョイント特徴表現と個々のモダリティの相関に基づいて、クロスアテンション重みを計算する。
以上の結果から,我々の連立アテンショナルA-V融合モデルが,最先端のアプローチより優れたコスト効率のソリューションとなることが示唆された。
論文 参考訳(メタデータ) (2022-09-19T15:01:55Z) - A Joint Cross-Attention Model for Audio-Visual Fusion in Dimensional Emotion Recognition [46.443866373546726]
ビデオから抽出した顔と声の融合に基づく次元的感情認識に焦点を当てた。
本稿では, 相補的関係に依拠し, 有意な特徴を抽出する連係関係モデルを提案する。
提案したA-V融合モデルにより,最先端の手法より優れたコスト効率のソリューションが提供される。
論文 参考訳(メタデータ) (2022-03-28T14:09:43Z) - Audio-visual speech separation based on joint feature representation
with cross-modal attention [45.210105822471256]
本研究は,アテンション機構を備えた音声と視覚ストリームから,共同特徴表現を学習することから着想を得たものである。
音声と視覚の分離をさらに改善するため、唇の動きの濃密な光学的流れが組み込まれている。
性能の全体的な改善により、追加のモーションネットワークは、唇画像と音声信号の組み合わせによる視覚的表現を効果的に強化することを示した。
論文 参考訳(メタデータ) (2022-03-05T04:39:46Z) - Collaborative Attention Mechanism for Multi-View Action Recognition [75.33062629093054]
本稿では,多視点行動認識問題を解決するための協調的注意機構(CAM)を提案する。
提案したCAMは,多視点間での注意差を検出し,フレームレベルの情報を適応的に統合し,相互に利益をもたらす。
4つのアクションデータセットの実験では、提案されたCAMは、ビュー毎により良い結果を得るとともに、マルチビューのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2020-09-14T17:33:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。