Fugu-MT 論文翻訳(概要): Reliability-Aware Geometric Fusion for Robust Audio-Visual Navigation

論文の概要: Reliability-Aware Geometric Fusion for Robust Audio-Visual Navigation

arxiv url: http://arxiv.org/abs/2604.02391v1
Date: Thu, 02 Apr 2026 07:26:46 GMT
ステータス: 翻訳完了
システム内更新日: 2026-04-06 17:20:24.136525
Title: Reliability-Aware Geometric Fusion for Robust Audio-Visual Navigation
Title（参考訳）: 信頼性を考慮したロバストなオーディオ・ビジュアルナビゲーションのための幾何学的融合
Authors: Teng Liu, Yinfeng Yu,
Abstract要約: RAVN (Reliability-Aware Audio-Visual Navigation) は、オーディオ由来の信頼性に基づく相互融合を条件とするフレームワークである。本稿では,幾何的プロキシ・インシデントによって訓練された音響幾何共振器(AGR)について紹介する。また、学習キューをソフトゲートに変換して視覚的特徴を変調するRAGM(Reliability-Aware Geometric Modulation)についても紹介する。
参考スコア（独自算出の注目度）: 4.024922311680863
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Audio-Visual Navigation (AVN) requires an embodied agent to navigate toward a sound source by utilizing both vision and binaural audio. A core challenge arises in complex acoustic environments, where binaural cues become intermittently unreliable, particularly when generalizing to previously unheard sound categories. To address this, we propose RAVN (Reliability-Aware Audio-Visual Navigation), a framework that conditions cross-modal fusion on audio-derived reliability cues, dynamically calibrating the integration of audio and visual inputs. RAVN introduces an Acoustic Geometry Reasoner (AGR) that is trained with geometric proxy supervision. Using a heteroscedastic Gaussian NLL objective, AGR learns observation-dependent dispersion as a practical reliability cue, eliminating the need for geometric labels during inference. Additionally, we introduce Reliability-Aware Geometric Modulation (RAGM), which converts the learned cue into a soft gate to modulate visual features, thereby mitigating cross-modal conflicts. We evaluate RAVN on SoundSpaces using both Replica and Matterport3D environments, and the results show consistent improvements in navigation performance, with notable robustness in the challenging unheard sound setting.
Abstract（参考訳）: オーディオ・ビジュアル・ナビゲーション(AVN)は、視覚とバイノーラルの両方のオーディオを利用することで、音源に向かって移動するためのエンボディエージェントを必要とする。複雑な音響環境において、特に以前に聴こえなかった音のカテゴリーに一般化する場合に、バイノーラルキューは断続的に信頼性が低下する。そこで本研究では,音声と視覚入力の統合を動的に調整し,音声からの信頼度に基づく相互融合を条件としたRAVN(Reliability-Aware Audio-Visual Navigation)を提案する。 RAVNは、幾何学的プロキシの監督で訓練されたAGR(Aerotic Geometry Reasoner)を導入している。ヘテロセダスティックなガウス的NLLの目的を用いて、AGRは観測依存性の分散を実用的な信頼性のキューとして学習し、推論中に幾何ラベルを不要にする。さらに、学習したキューをソフトゲートに変換して視覚的特徴を調整し、モダル間の衝突を緩和するRAGM(Reliability-Aware Geometric Modulation)を導入する。本研究では、ReplicaとMatterport3Dの両方の環境を用いて、SoundSpaces上のRAVNを評価する。

関連論文リスト

Audio Spatially-Guided Fusion for Audio-Visual Navigation [6.536516025407856]
オーディオ・ビジュアル・ナビゲーションのためのオーディオ空間誘導型フュージョンを提案する。まず,対象とする空間状態情報を適応的に抽出する音声空間特徴エンコーダを設計する。そこで本研究では,マルチモーダル特徴の動的アライメントと適応融合を実現するために,ASGF(Audio Spatial State Guided Fusion)を導入する。
論文参考訳（メタデータ） (2026-04-02T07:15:17Z)
Explainable Transformer-CNN Fusion for Noise-Robust Speech Emotion Recognition [2.0391237204597363]
音声感情認識システムは、予測不能な音響干渉にさらされると、しばしば性能が低下する。本稿では,Wav2Vec 2.0のコンテキストモデリングと1次元畳み込みニューラルネットワークのスペクトル安定性を融合したHybrid Transformer-CNNフレームワークを提案する。
論文参考訳（メタデータ） (2025-12-20T10:05:58Z)
SPUR: A Plug-and-Play Framework for Integrating Spatial Audio Understanding and Reasoning into Large Audio-Language Models [62.14165748145729]
本研究では,空間知覚を伴う大規模オーディオスピーカモデルを備えた,軽量なプラグイン・アプローチであるSPURを紹介する。 SPURは、 (i) チャネルを回転認識、リスナー中心の空間特徴にマッピングし、マルチモーダルアダプタを介して対象のLALMに統合する第1次アンビニクス(FOA)エンコーダと、 (ii) SPUR-Setは、オープンソースのFOA記録を制御されたシミュレーションと組み合わせた空間QAデータセットで、相対方向、標高、距離、および監督された空間推論の重複を強調する。
論文参考訳（メタデータ） (2025-11-10T01:29:26Z)
Improving Noise Robust Audio-Visual Speech Recognition via Router-Gated Cross-Modal Feature Fusion [46.072071890391356]
本稿では,トークンレベルの音響劣化スコアに基づいて,音声と視覚の特徴を適応的に重み付けする新しいフレームワークを提案する。音声-視覚機能融合型ルータを用いて、信頼できない音声トークンをダウンウェイトし、各デコーダ層にゲートされたクロスアテンションを通じて視覚的手がかりを補強する。 LRS3の実験では,AV-HuBERTと比較して単語誤り率を16.51-42.67%削減できることが示されている。
論文参考訳（メタデータ） (2025-08-26T07:05:48Z)
Adaptive Control Attention Network for Underwater Acoustic Localization and Domain Adaptation [8.017203108408973]
海洋における音源の局所化は、環境の複雑でダイナミックな性質のために難しい課題である。本研究では,移動音源と受信機の距離を正確に予測するマルチブランチネットワークアーキテクチャを提案する。提案手法は,SOTA(State-of-the-art)アプローチに類似した設定で優れる。
論文参考訳（メタデータ） (2025-06-20T18:13:30Z)
AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。 AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文参考訳（メタデータ） (2024-06-13T08:34:12Z)
Adaptive ship-radiated noise recognition with learnable fine-grained wavelet transform [25.887932248706218]
本稿では,適応型一般化認識システム AGNet を提案する。固定ウェーブレットパラメータをきめ細かな学習可能なパラメータに変換することにより、AGNetは異なる周波数で水中音の特性を学習する。実験の結果、AGNetは水中音響データセットのベースライン法を全て上回っていることがわかった。
論文参考訳（メタデータ） (2023-05-31T06:56:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。