Fugu-MT 論文翻訳(概要): Interpretable Perception and Reasoning for Audiovisual Geolocation

論文の概要: Interpretable Perception and Reasoning for Audiovisual Geolocation

arxiv url: http://arxiv.org/abs/2603.05708v1
Date: Thu, 05 Mar 2026 22:04:58 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-09 13:17:44.591766
Title: Interpretable Perception and Reasoning for Audiovisual Geolocation
Title（参考訳）: 視覚的位置推定のための解釈可能な知覚と推論
Authors: Yiyang Su, Xiaoming Liu,
Abstract要約: 本稿では,解釈可能な知覚と推論を通じて地理的曖昧性を解決するためのフレームワークであるAudiovisual Geolocationを紹介する。位置決めのための高品質なグローバルスケールビデオベンチマークであるAVGについて紹介する。
参考スコア（独自算出の注目度）: 13.223409217215648
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: While recent advances in Multimodal Large Language Models (MLLMs) have improved image-based localization, precise global geolocation remains a formidable challenge due to the inherent ambiguity of visual landscapes and the largely untapped potential of auditory cues. In this paper, we introduce Audiovisual Geolocation, a framework designed to resolve geographic ambiguity through interpretable perception and reasoning. We present AVG, a high-quality global-scale video benchmark for geolocation, comprising 20,000 curated clips across 1,000 distinct locations. To address the complexity of audiovisual geolocation, we propose a three-stage framework: (1) a Perception stage that utilizes a mixture-autoregressive sparse autoencoder to decompose noisy audio into semantically grounded "acoustic atoms"; (2) a Multimodal Reasoning stage that employs an MLLM finetuned via Group Relative Policy Optimization (GRPO) to synthesize these atoms with visual features; and (3) a Precision Prediction stage using Riemannian Flow Matching on the $S^2$ manifold. Our experiments demonstrate that our framework significantly outperforms unimodal baselines. These results entail that interpretable perception of the soundscape provides a critical, orthogonal signal that, when coupled with multimodal reasoning, enables high-precision global localization.
Abstract（参考訳）: MLLM(Multimodal Large Language Models)の最近の進歩は、画像に基づくローカライゼーションを改善しているが、視覚的景観の本質的な曖昧さと、聴覚的手がかりのほとんど未解決の可能性のために、正確なグローバルな位置決めは、依然として深刻な課題である。本稿では,解釈可能な知覚と推論を通じて地理的曖昧性を解決するためのフレームワークであるAudiovisual Geolocationを紹介する。位置決めのための高品質なグローバルスケールビデオベンチマークであるAVGについて紹介する。聴覚的位置決めの複雑さに対処するため,(1)混合自己回帰的スパースオートエンコーダを用いた知覚段階を意味的に基底付けられた「音響的原子」に分解し,(2)グループ相対ポリシー最適化(GRPO)で微調整されたMLLMを用いてこれらの原子を視覚的特徴で合成するマルチモーダル推論段階,(3)S^2$多様体上のリーマンフローマッチングを用いた精度予測段階を提案する。実験の結果,本フレームワークは単調なベースラインを著しく上回っていることがわかった。これらの結果は、音環境の解釈可能な知覚が、多モーダルな推論と組み合わせることで、高精度なグローバルなローカライゼーションを可能にする重要な直交信号をもたらすことを示唆している。

関連論文リスト

The Sonar Moment: Benchmarking Audio-Language Models in Audio Geo-Localization [31.970828788340782]
AGL1Kは、音声言語モデル(ALM)のための最初のオーディオジオローカライズベンチマークである。クラウドソースプラットフォームから確実にローカライズ可能なサンプルを抽出するために,オーディオ・ローカライズビリティ・メトリックを提案する。クローズド・ソース・モデルはオープンソース・モデルよりも大幅に優れており、言語的手がかりが予測の足場として支配されることが多い。
論文参考訳（メタデータ） (2026-01-06T18:13:24Z)
The World is Not Mono: Enabling Spatial Understanding in Large Audio-Language Models [17.675850481660863]
聴覚場面分析(ASA)のための階層的枠組みを導入する。本稿では,Qwen2-Audioのようなモデルを用いて,複雑な音響世界を理解し,推論するシステムを提案する。我々の研究は、大規模モデルの強力な推論能力を総合音響シーン解析に活用するための明確な経路を提供する。
論文参考訳（メタデータ） (2026-01-06T11:54:47Z)
SPUR: A Plug-and-Play Framework for Integrating Spatial Audio Understanding and Reasoning into Large Audio-Language Models [62.14165748145729]
本研究では,空間知覚を伴う大規模オーディオスピーカモデルを備えた,軽量なプラグイン・アプローチであるSPURを紹介する。 SPURは、 (i) チャネルを回転認識、リスナー中心の空間特徴にマッピングし、マルチモーダルアダプタを介して対象のLALMに統合する第1次アンビニクス(FOA)エンコーダと、 (ii) SPUR-Setは、オープンソースのFOA記録を制御されたシミュレーションと組み合わせた空間QAデータセットで、相対方向、標高、距離、および監督された空間推論の重複を強調する。
論文参考訳（メタデータ） (2025-11-10T01:29:26Z)
GLip: A Global-Local Integrated Progressive Framework for Robust Visual Speech Recognition [72.29071664964633]
我々は、ロバストな視覚音声認識(VSR)のために設計されたグローバルローカル統合プログレッシブフレームワークGLipを提案する。 GLipは、グローバルな視覚的特徴とローカルな視覚的特徴の両方を、容易にアクセス可能な音声視覚データを用いて対応する音声音声単位に整合させることを学ぶ。第2段階では、ローカル機能を関連するグローバルコンテキストと動的に統合するコンテキスト拡張モジュール(CEM)を導入します。
論文参考訳（メタデータ） (2025-09-19T14:36:01Z)
Localizing Audio-Visual Deepfakes via Hierarchical Boundary Modeling [50.8215545241128]
私たちはaを提案します。境界モデリングネットワーク(HBMNet)には、オーディオ・ビジュアル・フィーチャー(Audio-Visual Feature)という3つのモジュールが含まれている。粗提案発電機と微細階層確率発生装置モダリティの観点からは、フレームレベルの監督によって強化されたオーディオ・ビジュアル・エンコーディングと融合を強化する。実験により、符号化と融合が主に精度を向上し、フレームレベルの監視リコールが可能であることが示された。
論文参考訳（メタデータ） (2025-08-04T02:41:09Z)
SAVVY: Spatial Awareness via Audio-Visual LLMs through Seeing and Hearing [17.185628958975528]
ダイナミック・オーディオ・視覚環境における3次元空間推論は人間の認知の基盤となる。 SAVVYは、動的シーンにおける3次元空間推論のための最初のベンチマークである。
論文参考訳（メタデータ） (2025-06-04T19:11:20Z)
QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文参考訳（メタデータ） (2023-09-29T20:48:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。