論文の概要: Spatial-Aware Conditioned Fusion for Audio-Visual Navigation
- arxiv url: http://arxiv.org/abs/2604.02390v1
- Date: Thu, 02 Apr 2026 07:20:27 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.135426
- Title: Spatial-Aware Conditioned Fusion for Audio-Visual Navigation
- Title(参考訳): 空間認識型コンディショニング・フュージョンによるオーディオ・ビジュアルナビゲーション
- Authors: Shaohang Wu, Yinfeng Yu,
- Abstract要約: 音声と視覚のナビゲーションタスクでは、エージェントが目標の連続的な発声を検知し、ナビゲートする必要がある。
既存の手法は主に単純な特徴連結や後期融合に依存しており、ターゲットの相対位置の明確な離散的な表現は欠如している。
本研究では、ターゲットの相対方向と距離をオーディオ視覚的手がかりから符号化し、その分布を予測し、ポリシー条件付けと状態モデリングのためのコンパクトな記述子として符号化する空間認識条件付き融合(SACF)を提案する。
- 参考スコア(独自算出の注目度): 2.5209477824050954
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Audio-visual navigation tasks require agents to locate and navigate toward continuously vocalizing targets using only visual observations and acoustic cues. However, existing methods mainly rely on simple feature concatenation or late fusion, and lack an explicit discrete representation of the target's relative position, which limits learning efficiency and generalization. We propose Spatial-Aware Conditioned Fusion (SACF). SACF first discretizes the target's relative direction and distance from audio-visual cues, predicts their distributions, and encodes them as a compact descriptor for policy conditioning and state modeling. Then, SACF uses audio embeddings and spatial descriptors to generate channel-wise scaling and bias to modulate visual features via conditional linear transformation, producing target-oriented fused representations. SACF improves navigation efficiency with lower computational overhead and generalizes well to unheard target sounds.
- Abstract(参考訳): 視覚的ナビゲーションタスクは、視覚的な観察と音響的手がかりのみを使用して、エージェントが連続的にターゲットを鳴らすように見つけ、ナビゲートする必要がある。
しかし、既存の手法は主に単純な特徴連結や後期融合に依存しており、学習効率と一般化を制限する目標の相対的な位置の明確な離散的な表現が欠如している。
本研究では,空間認識型条件付き核融合(SACF)を提案する。
SACFは、まずターゲットの相対方向とオーディオ視覚的手がかりからの距離を識別し、それらの分布を予測し、ポリシー条件付けと状態モデリングのためのコンパクトな記述子として符号化する。
次に、SACFは、オーディオ埋め込みと空間記述子を使用して、チャネルワイドなスケーリングとバイアスを生成し、条件付き線形変換によって視覚的特徴を変調し、ターゲット指向の融合表現を生成する。
SACFは、計算オーバーヘッドを小さくしてナビゲーション効率を向上し、未聴取対象音に対してよく一般化する。
関連論文リスト
- Audio Spatially-Guided Fusion for Audio-Visual Navigation [6.536516025407856]
オーディオ・ビジュアル・ナビゲーションのためのオーディオ空間誘導型フュージョンを提案する。
まず,対象とする空間状態情報を適応的に抽出する音声空間特徴エンコーダを設計する。
そこで本研究では,マルチモーダル特徴の動的アライメントと適応融合を実現するために,ASGF(Audio Spatial State Guided Fusion)を導入する。
論文 参考訳(メタデータ) (2026-04-02T07:15:17Z) - Semantic Audio-Visual Navigation in Continuous Environments [20.046962371381763]
音響視覚ナビゲーションにより、エンボディエージェントは聴覚と視覚の両方の手がかりを利用することで、音を放出するターゲットに向かって移動することができる。
SAVNCE(Audio-Visual Navigation in Continuous Environments)を導入し、エージェントは3次元空間で自由に動き、時間的・空間的に整合したオーディオ視覚ストリームを知覚することができる。
本研究では,空間的および意味的な目標表現を共同で符号化し,過去のコンテキストを自己運動の手がかりと統合し,メモリ拡張された目標推論を可能にするマルチモーダルトランスフォーマーモデルMAGNetを提案する。
論文 参考訳(メタデータ) (2026-03-20T05:49:50Z) - SPUR: A Plug-and-Play Framework for Integrating Spatial Audio Understanding and Reasoning into Large Audio-Language Models [62.14165748145729]
本研究では,空間知覚を伴う大規模オーディオスピーカモデルを備えた,軽量なプラグイン・アプローチであるSPURを紹介する。
SPURは、 (i) チャネルを回転認識、リスナー中心の空間特徴にマッピングし、マルチモーダルアダプタを介して対象のLALMに統合する第1次アンビニクス(FOA)エンコーダと、 (ii) SPUR-Setは、オープンソースのFOA記録を制御されたシミュレーションと組み合わせた空間QAデータセットで、相対方向、標高、距離、および監督された空間推論の重複を強調する。
論文 参考訳(メタデータ) (2025-11-10T01:29:26Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Implicit Counterfactual Learning for Audio-Visual Segmentation [50.69377287012591]
我々は,非バイアスの相互理解を実現するために,暗黙の対実的枠組み(ICF)を提案する。
意味論の欠如により、異種表現は誤った一致につながる可能性がある。
モダリティ共有空間を確立するために,ビデオ,セグメント,フレームレベルを含む多粒性暗黙テキスト(MIT)をブリッジとして導入する。
論文 参考訳(メタデータ) (2025-07-28T11:46:35Z) - DTFSal: Audio-Visual Dynamic Token Fusion for Video Saliency Prediction [5.13730975608994]
映像中の有声領域を識別することで人間の視覚的注意を模倣することを目的としている。
本稿では,精度と計算効率の両立を図った新しいオーディオ・ビジュアル・サリエンシ予測フレームワークであるDFTSalを提案する。
論文 参考訳(メタデータ) (2025-04-14T10:17:25Z) - Locality-aware Cross-modal Correspondence Learning for Dense Audio-Visual Events Localization [50.122441710500055]
オーディオ・ビジュアル・イベント(DAVE)のための局所性を考慮したクロスモーダル対応学習フレームワークLoCoについて述べる。
LoCo は局所対応特徴 (LCF) 変調を適用し、モダリティ共有セマンティクスに焦点を合わせるために単調エンコーダを強制する。
さらに、データ駆動方式で注意領域を動的に調整するローカル適応クロスモーダル(LAC)インタラクションをカスタマイズする。
論文 参考訳(メタデータ) (2024-09-12T11:54:25Z) - Data Fusion for Audiovisual Speaker Localization: Extending Dynamic
Stream Weights to the Spatial Domain [103.3388198420822]
複数の話者の位置を推定することは、自動音声認識や話者ダイアリゼーションなどのタスクに役立ちます。
本稿では,個別の動的ストリーム重みを特定領域に割り当てることにより,話者定位のための新しい音声視覚データ融合フレームワークを提案する。
オーディオ・ヴィジュアル・レコードを用いた性能評価は,全てのベースラインモデルより優れた融合手法により,有望な結果をもたらす。
論文 参考訳(メタデータ) (2021-02-23T09:59:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。