論文の概要: SPUR: A Plug-and-Play Framework for Integrating Spatial Audio Understanding and Reasoning into Large Audio-Language Models
- arxiv url: http://arxiv.org/abs/2511.06606v2
- Date: Thu, 13 Nov 2025 21:56:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-17 14:38:01.798036
- Title: SPUR: A Plug-and-Play Framework for Integrating Spatial Audio Understanding and Reasoning into Large Audio-Language Models
- Title(参考訳): SPUR:空間的音声理解と推論を大規模音声言語モデルに統合するプラグイン・アンド・プレイフレームワーク
- Authors: S Sakshi, Vaibhavi Lokegaonkar, Neil Zhang, Ramani Duraiswami, Sreyan Ghosh, Dinesh Manocha, Lie Lu,
- Abstract要約: 本研究では,空間知覚を伴う大規模オーディオスピーカモデルを備えた,軽量なプラグイン・アプローチであるSPURを紹介する。
SPURは、 (i) チャネルを回転認識、リスナー中心の空間特徴にマッピングし、マルチモーダルアダプタを介して対象のLALMに統合する第1次アンビニクス(FOA)エンコーダと、 (ii) SPUR-Setは、オープンソースのFOA記録を制御されたシミュレーションと組み合わせた空間QAデータセットで、相対方向、標高、距離、および監督された空間推論の重複を強調する。
- 参考スコア(独自算出の注目度): 62.14165748145729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Spatial perception is central to auditory intelligence, enabling accurate understanding of real-world acoustic scenes and advancing human-level perception of the world around us. While recent large audio-language models (LALMs) show strong reasoning over complex audios, most operate on monaural inputs and lack the ability to capture spatial cues such as direction, elevation, and distance. We introduce SPUR, a lightweight, plug-in approach that equips LALMs with spatial perception through minimal architectural changes. SPUR consists of: (i) a First-Order Ambisonics (FOA) encoder that maps (W, X, Y, Z) channels to rotation-aware, listener-centric spatial features, integrated into target LALMs via a multimodal adapter; and (ii) SPUR-Set, a spatial QA dataset combining open-source FOA recordings with controlled simulations, emphasizing relative direction, elevation, distance, and overlap for supervised spatial reasoning. Fine-tuning our model on the SPUR-Set consistently improves spatial QA and multi-speaker attribution while preserving general audio understanding. SPUR provides a simple recipe that transforms monaural LALMs into spatially aware models. Extensive ablations validate the effectiveness of our approach.
- Abstract(参考訳): 空間知覚は聴覚知性の中心であり、現実世界の音響シーンの正確な理解と、周囲の世界に対する人間レベルの認識を促進することができる。
近年の大規模音声言語モデル(LALM)は複雑な音声に対する強い推論を示すが、ほとんどの場合単調な入力で動作し、方向、高度、距離などの空間的手がかりを捉える能力は欠如している。
LALMを最小限のアーキテクチャ変更によって空間知覚に適合させる軽量なプラグインアプローチであるSPURを導入する。
SPURは以下の通りである。
i) (W, X, Y, Z)チャネルを回転対応のリスナー中心の空間特徴にマッピングし、マルチモーダルアダプタを介してターゲットLALMに統合する第1次アンビニクス(FOA)エンコーダ。
(ii)SPUR-Setは,オープンソースFOA記録と制御されたシミュレーションを組み合わせた空間的QAデータセットであり,相対方向,標高,距離,重なり合いに着目した空間的推論を行う。
SPUR-Set上でのモデル調整は、一般的な音声理解を維持しながら、空間的QAとマルチスピーカ属性を一貫して改善する。
SPURは単調なLALMを空間的に認識されたモデルに変換するシンプルなレシピを提供する。
徹底的な改善は我々のアプローチの有効性を検証する。
関連論文リスト
- Complementary and Contrastive Learning for Audio-Visual Segmentation [74.11434759171199]
本稿では,ローカル情報とグローバル情報の両方を処理可能な新しいフレームワークであるComplementary and Contrastive Transformer(CCFormer)を提案する。
提案手法は,S4, MS3, AVSSデータセットにまたがる最先端のベンチマークを新たに設定する。
論文 参考訳(メタデータ) (2025-10-11T06:36:59Z) - Spatial and Semantic Embedding Integration for Stereo Sound Event Localization and Detection in Regular Videos [3.2472293599354596]
本報告では,DCASE2025 Task 3 Challenge: Stereo Sound Event Localization and Detection in regular Video Contentの音声のみおよび音声視覚トラックに提案するシステムについて述べる。
SELDは、時間的事象分類と空間的局所化を組み合わせた複雑なタスクであり、空間的、時間的、意味的な次元にわたって推論を必要とする。
そこで本研究では,音声用CLAPと視覚入力用OWL-ViTという,事前学習型コントラスト言語対応モデルを統合することで,セマンティック情報を用いた標準的なSELDアーキテクチャを強化した。
論文 参考訳(メタデータ) (2025-07-07T10:08:57Z) - An Embarrassingly Simple Approach for LLM with Strong ASR Capacity [56.30595787061546]
我々は,音声基礎エンコーダと大規模言語モデル(LLM)を用いて,音声処理の分野で最も重要な課題の1つを解決することに注力する。
最近の研究は、音声エンコーダの出力を時間的に圧縮したり、プロジェクタのモーダルアライメントに対処したり、LLMのパラメータ効率の良い微調整を利用するといった複雑な設計をしている。
そこで本研究では,市販の音声エンコーダLLMと,トレーニング可能な唯一の線形プロジェクタの単純な構成がASRタスクに適しているのに対して,繊細な設計は必要ないことを発見した。
論文 参考訳(メタデータ) (2024-02-13T23:25:04Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - A-JEPA: Joint-Embedding Predictive Architecture Can Listen [35.308323314848735]
本稿では,音声スペクトルから自己教師付き学習を行うシンプルな拡張手法であるA-JEPAについて紹介する。
A-JEPAは、コンテキストエンコーダによるカリキュラムマスキング戦略で可視音声スペクトログラムパッチをエンコードし、よく設計された場所でサンプリングされた領域の表現を予測する。
論文 参考訳(メタデータ) (2023-11-27T13:53:53Z) - Leaping Into Memories: Space-Time Deep Feature Synthesis [93.10032043225362]
内部モデルから映像を合成するアーキテクチャ非依存の手法であるLEAPSを提案する。
我々は,Kineetics-400に基づく多種多様なアーキテクチャの進化的注目を反転させることにより,LEAPSの適用性を定量的かつ定性的に評価する。
論文 参考訳(メタデータ) (2023-03-17T12:55:22Z) - Temporal-Spatial Neural Filter: Direction Informed End-to-End
Multi-channel Target Speech Separation [66.46123655365113]
ターゲット音声分離とは、混合信号からターゲット話者の音声を抽出することを指す。
主な課題は、複雑な音響環境とリアルタイム処理の要件である。
複数話者混合から対象音声波形を直接推定する時間空間ニューラルフィルタを提案する。
論文 参考訳(メタデータ) (2020-01-02T11:12:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。