論文の概要: Iterative Residual Cross-Attention Mechanism: An Integrated Approach for Audio-Visual Navigation Tasks
- arxiv url: http://arxiv.org/abs/2509.25652v1
- Date: Tue, 30 Sep 2025 01:52:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-01 14:44:59.976347
- Title: Iterative Residual Cross-Attention Mechanism: An Integrated Approach for Audio-Visual Navigation Tasks
- Title(参考訳): 反復的残留的相互注意機構:オーディオ・ビジュアル・ナビゲーション・タスクの統合的アプローチ
- Authors: Hailong Zhang, Yinfeng Yu, Liejun Wang, Fuchun Sun, Wendong Zheng,
- Abstract要約: IRCAM-AVNは、マルチモーダル情報融合とシーケンスモデリングを統合するエンドツーエンドフレームワークである。
初期のマルチモーダルシーケンスと処理された情報シーケンスを利用するマルチレベル残差設計を採用している。
実験結果から, 繰り返し残差保持機構を用いたインテリジェントエージェントは, ナビゲーション性能に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 37.73614419658084
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-visual navigation represents a significant area of research in which intelligent agents utilize egocentric visual and auditory perceptions to identify audio targets. Conventional navigation methodologies typically adopt a staged modular design, which involves first executing feature fusion, then utilizing Gated Recurrent Unit (GRU) modules for sequence modeling, and finally making decisions through reinforcement learning. While this modular approach has demonstrated effectiveness, it may also lead to redundant information processing and inconsistencies in information transmission between the various modules during the feature fusion and GRU sequence modeling phases. This paper presents IRCAM-AVN (Iterative Residual Cross-Attention Mechanism for Audiovisual Navigation), an end-to-end framework that integrates multimodal information fusion and sequence modeling within a unified IRCAM module, thereby replacing the traditional separate components for fusion and GRU. This innovative mechanism employs a multi-level residual design that concatenates initial multimodal sequences with processed information sequences. This methodological shift progressively optimizes the feature extraction process while reducing model bias and enhancing the model's stability and generalization capabilities. Empirical results indicate that intelligent agents employing the iterative residual cross-attention mechanism exhibit superior navigation performance.
- Abstract(参考訳): 音声視覚ナビゲーションは、インテリジェントエージェントがエゴセントリックな視覚的および聴覚的知覚を利用して、オーディオターゲットを識別する重要な研究分野である。
従来のナビゲーション手法では、まず機能融合を実行し、次にGRU(Gated Recurrent Unit)モジュールをシーケンスモデリングに使用し、最後に強化学習を通じて決定を行う。
このモジュラーアプローチは有効性を示しているが、機能融合とGRUシーケンスモデリングフェーズにおいて、冗長な情報処理と様々なモジュール間の情報伝達の不整合をもたらす可能性がある。
IRCAM-AVN(Iterative Residual Cross-Attention Mechanism for Audiovisual Navigation)は,統合されたIRCAMモジュール内にマルチモーダル情報融合とシーケンスモデリングを統合するエンドツーエンドフレームワークである。
この革新的なメカニズムは、初期マルチモーダルシーケンスと処理された情報シーケンスを結合するマルチレベル残差設計を採用する。
この方法論的シフトは、モデルのバイアスを低減し、モデルの安定性と一般化能力を高めながら、特徴抽出プロセスを段階的に最適化する。
実験結果から, 繰り返し残差保持機構を用いたインテリジェントエージェントは, ナビゲーション性能に優れていたことが示唆された。
関連論文リスト
- IRDFusion: Iterative Relation-Map Difference guided Feature Fusion for Multispectral Object Detection [23.256601188227865]
クロスモーダルな特徴のコントラストとスクリーニング戦略に基づく,革新的な機能融合フレームワークを提案する。
提案手法は,オブジェクト認識の相補的クロスモーダル特徴を融合させることにより,有能な構造を適応的に強化する。
IRDFusionは、様々な挑戦的なシナリオで既存のメソッドを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-11T01:22:35Z) - Mitigating Attention Hacking in Preference-Based Reward Modeling via Interaction Distillation [62.14692332209628]
インタラクション蒸留(Interaction Distillation)は、注意レベル最適化によるより適切な嗜好モデリングのための新しいトレーニングフレームワークである。
最先端のRM最適化法と比較して、より安定で一般化可能な報酬信号を提供する。
論文 参考訳(メタデータ) (2025-08-04T17:06:23Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - AVadCLIP: Audio-Visual Collaboration for Robust Video Anomaly Detection [57.649223695021114]
本稿では,ロバストなビデオ異常検出に音声と視覚の協調を利用する,弱教師付きフレームワークを提案する。
本フレームワークは,複数のベンチマークにおいて優れた性能を示し,オーディオ統合により異常検出精度が大幅に向上する。
論文 参考訳(メタデータ) (2025-04-06T13:59:16Z) - Spectrum-based Modality Representation Fusion Graph Convolutional Network for Multimodal Recommendation [7.627299398469962]
本稿では,新しいスペクトルベースのモダリティ表現グラフレコメンデータを提案する。
モダリティノイズを同時に抑制しながら、ユニモーダルとフュージョンの両方の好みを捉えることを目的としている。
実世界の3つのデータセットを用いた実験により,提案モデルの有効性が示された。
論文 参考訳(メタデータ) (2024-12-19T15:53:21Z) - Self-Attention Based Generative Adversarial Networks For Unsupervised
Video Summarization [78.2700757742992]
我々は、GAN(Generative Adversarial Network)をトレーニングして、代表要約を作成する人気手法を構築した。
本稿では,フレーム選択のための自己認識機構と,符号化と復号のためのLSTMを組み合わせたSUM-GAN-AEDモデルを提案する。
論文 参考訳(メタデータ) (2023-07-16T19:56:13Z) - Video-based Cross-modal Auxiliary Network for Multimodal Sentiment
Analysis [16.930624128228658]
音声特徴マップモジュールとクロスモーダル選択モジュールから構成されるビデオベースクロスモーダル補助ネットワーク(VCAN)を提案する。
VCANは、マルチモーダル感情分析の分類精度を向上させる最先端の手法よりもはるかに優れている。
論文 参考訳(メタデータ) (2022-08-30T02:08:06Z) - Self-Attention for Audio Super-Resolution [0.0]
畳み込みと自己認識を組み合わせた超高解像度オーディオのためのネットワークアーキテクチャを提案する。
Attention-based Feature-Wise Linear Modulation (AFiLM) は、畳み込みモデルの活性化を変調するために、リカレントニューラルネットワークの代わりに自己アテンションメカニズムを使用する。
論文 参考訳(メタデータ) (2021-08-26T08:05:07Z) - Accelerated Multi-Modal MR Imaging with Transformers [92.18406564785329]
MR画像の高速化のためのマルチモーダルトランス(MTrans)を提案する。
トランスアーキテクチャを再構築することで、MTransは深いマルチモーダル情報をキャプチャする強力な能力を得ることができる。
i)MTransはマルチモーダルMRイメージングに改良されたトランスフォーマーを使用する最初の試みであり、CNNベースの手法と比較してよりグローバルな情報を提供する。
論文 参考訳(メタデータ) (2021-06-27T15:01:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。