論文の概要: The World is Not Mono: Enabling Spatial Understanding in Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2601.02954v1
- Date: Tue, 06 Jan 2026 11:54:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.915811
- Title: The World is Not Mono: Enabling Spatial Understanding in Large Audio-Language Models
- Title(参考訳): モノではない世界:大規模オーディオ言語モデルにおける空間的理解の実現
- Authors: Yuhuan You, Lai Wei, Xihong Wu, Tianshu Qu,
- Abstract要約: 聴覚場面分析(ASA)のための階層的枠組みを導入する。
本稿では,Qwen2-Audioのようなモデルを用いて,複雑な音響世界を理解し,推論するシステムを提案する。
我々の研究は、大規模モデルの強力な推論能力を総合音響シーン解析に活用するための明確な経路を提供する。
- 参考スコア(独自算出の注目度): 17.675850481660863
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Existing large audio-language models perceive the world as "mono" -- a single stream of audio that ignores the critical spatial dimension ("where") required for universal acoustic scene analysis. To bridge this gap, we first introduce a hierarchical framework for Auditory Scene Analysis (ASA). Guided by this framework, we introduce a system that enables models like Qwen2-Audio to understand and reason about the complex acoustic world. Our framework achieves this through three core contributions: First, we build a large-scale, synthesized binaural audio dataset to provide the rich spatial cues. Second, we design a hybrid feature projector, which leverages parallel semantic and spatial encoders to extract decoupled representations. These distinct streams are integrated via a dense fusion mechanism, ensuring the model receives a holistic view of the acoustic scene. Finally, we employ a progressive training curriculum, advancing from supervised fine-tuning (SFT) to reinforcement learning via Group Relative Policy Optimization (GRPO), to explicitly evolve the model's capabilities towards reasoning. On our comprehensive benchmark, the model demonstrates comparatively strong capability for spatial understanding. By enabling this spatial perception, our work provides a clear pathway for leveraging the powerful reasoning abilities of large models towards holistic acoustic scene analysis, advancing from "mono" semantic recognition to spatial intelligence.
- Abstract(参考訳): 既存の大きな音声言語モデルは、世界を"mono"(モノ)と認識しており、普遍的な音響シーン分析に必要な空間的次元(場所)を無視した単一のオーディオストリームである。
このギャップを埋めるために、まず、聴覚シーン分析(ASA)のための階層的枠組みを導入する。
本稿では,Qwen2-Audioのようなモデルを用いて,複雑な音響世界を理解し,推論するシステムを提案する。
まず、より豊かな空間的手がかりを提供するために、大規模で合成されたバイノーラルオーディオデータセットを構築します。
第2に、並列意味と空間エンコーダを利用して分離された表現を抽出するハイブリッド機能プロジェクタを設計する。
これらの異なるストリームは、密接な融合機構を介して統合され、モデルが音響シーンの全体像を受け取ることを保証する。
最後に、教師付き微調整(SFT)から、グループ相対政策最適化(GRPO)による強化学習へと進む進歩的な学習カリキュラムを用いて、モデルの性能を推論に向けて明示的に進化させる。
包括的ベンチマークでは、空間的理解の比較的強力な能力を示す。
この空間知覚を可能にすることによって,大規模モデルの強力な推論能力を活用し,全体音場解析に活用するための明確な経路が得られ,モノの意味認識から空間知へと進化する。
関連論文リスト
- SPUR: A Plug-and-Play Framework for Integrating Spatial Audio Understanding and Reasoning into Large Audio-Language Models [62.14165748145729]
本研究では,空間知覚を伴う大規模オーディオスピーカモデルを備えた,軽量なプラグイン・アプローチであるSPURを紹介する。
SPURは、 (i) チャネルを回転認識、リスナー中心の空間特徴にマッピングし、マルチモーダルアダプタを介して対象のLALMに統合する第1次アンビニクス(FOA)エンコーダと、 (ii) SPUR-Setは、オープンソースのFOA記録を制御されたシミュレーションと組み合わせた空間QAデータセットで、相対方向、標高、距離、および監督された空間推論の重複を強調する。
論文 参考訳(メタデータ) (2025-11-10T01:29:26Z) - Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Audio-Plane: Audio Factorization Plane Gaussian Splatting for Real-Time Talking Head Synthesis [56.749927786910554]
本稿では,ガウススティングと構造化オーディオファクトリゼーションプレーン(Audio-Plane)を統合し,高品質,音声同期,リアルタイム音声ヘッド生成を実現する新しいフレームワークを提案する。
提案手法は,最先端の視覚的品質,正確なオーディオ-リップ同期,リアルタイム性能を実現し,従来の2次元および3次元のパラダイムよりも優れていた。
論文 参考訳(メタデータ) (2025-03-28T16:50:27Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず,大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mの構築を行った。
空間誘導を利用してテキストから没入型かつ制御可能な空間音声を生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - Investigating Disentanglement in a Phoneme-level Speech Codec for Prosody Modeling [39.80957479349776]
本稿では,RVQ-VAEモデルの離散空間の韻律モデリング機能について検討し,音素レベルでの操作を可能とした。
音素レベルの離散潜在表現は, 頑健かつ伝達可能な微細な韻律情報を捕捉し, 高いアンタングル化を実現することを示す。
論文 参考訳(メタデータ) (2024-09-13T09:27:05Z) - QDFormer: Towards Robust Audiovisual Segmentation in Complex Environments with Quantization-based Semantic Decomposition [47.103732403296654]
マルチソース意味空間は、単一ソース部分空間のカルテシアン積として表すことができる。
安定なグローバルな(クリップレベルの)特徴から,局所的な(フレームレベルの)特徴に知識を蒸留する,グローバルから局所的な量子化機構を導入する。
意味的に分解された音声表現がAVSの性能を大幅に向上させることを示す実験を行った。
論文 参考訳(メタデータ) (2023-09-29T20:48:44Z) - Novel-View Acoustic Synthesis [140.1107768313269]
本稿では,NVASタスクについて紹介する。
音源の視点で観測された視界と音から 見えない対象の視点から そのシーンの音を合成できるか?
空間内の任意の点の音を合成することを学ぶ視覚誘導音響合成(ViGAS)ネットワークを提案する。
論文 参考訳(メタデータ) (2023-01-20T18:49:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。