論文の概要: Spatial Audio Question Answering and Reasoning on Dynamic Source Movements
- arxiv url: http://arxiv.org/abs/2602.16334v1
- Date: Wed, 18 Feb 2026 10:16:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-19 15:58:30.572129
- Title: Spatial Audio Question Answering and Reasoning on Dynamic Source Movements
- Title(参考訳): 動的音源運動に対する空間的音声質問応答と推論
- Authors: Arvind Krishna Sridhar, Yinyi Guo, Erik Visser,
- Abstract要約: 孤立したモノラル音声イベントから多様な動きパターンを合成する動き中心の空間オーディオ拡張フレームワークを提案する。
第二に、音声モデルが明確な中間推論ステップを生成できる思考モードを持つエンドツーエンドのマルチモーダル微調整手法を提案する。
第3に,クエリ条件付きソース分離が事前処理段階に与える影響について検討し,3つの推論条件を比較した。
- 参考スコア(独自算出の注目度): 8.029049649310211
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Spatial audio understanding aims to enable machines to interpret complex auditory scenes, particularly when sound sources move over time. In this work, we study Spatial Audio Question Answering (Spatial AQA) with a focus on movement reasoning, where a model must infer object motion, position, and directional changes directly from stereo audio. First, we introduce a movement-centric spatial audio augmentation framework that synthesizes diverse motion patterns from isolated mono audio events, enabling controlled and scalable training data generation. Second, we propose an end-to-end multimodal finetuning approach with a thinking mode, which allows audio-language models to produce explicit intermediate reasoning steps before predicting an answer. Third, we investigate the impact of query-conditioned source separation as a preprocessing stage and compare three inference regimes: no masking, an audio grounding model (AGM), and ground-truth masks. Our results show that reasoning amplifies the benefits of source separation, with thinking mode showing significant improvement of +5.1% when a single event is present in the question. These findings highlight the interplay between movement modeling, reasoning, and separation quality, offering new insights for advancing spatial audio understanding.
- Abstract(参考訳): 空間的音声理解は、機械が複雑な聴覚シーン、特に音源が時間とともに移動するときの解釈を可能にすることを目的としている。
本研究では,ステレオ音声から直接物体の動き,位置,方向の変化を推定しなければならない動き推論に着目し,空間音声質問応答(Spatial AQA)について検討する。
まず,孤立した単一音声イベントから多様な動きパターンを合成し,制御されたスケーラブルなトレーニングデータ生成を可能にする動き中心型空間オーディオ拡張フレームワークを提案する。
第二に,思考モードを用いたエンドツーエンドのマルチモーダル微調整手法を提案する。
第3に,事前処理段階としてクエリ条件のソース分離が与える影響について検討し,マスキングなし,オーディオグラウンドディングモデル(AGM),グラウンドトルースマスクの3つの推論手法を比較した。
考察の結果,1つのイベントが存在する場合,思考モードは+5.1%の大幅な改善を示し,推論はソース分離の利点を増幅することがわかった。
これらの知見は、運動モデリング、推論、分離品質の相互作用を強調し、空間的音声理解を促進するための新たな洞察を提供する。
関連論文リスト
- Spatial Blind Spot: Auditory Motion Perception Deficits in Audio LLMs [39.209987830131816]
LALM(Large Audio-Language Models)は近年,音声認識,音声キャプション,聴覚質問応答において顕著な進歩を見せている。
しかし、これらのモデルが力学、特に音源の動きを知覚できるかどうかは不明だ。
AMPBenchは聴覚動作の理解を評価するために設計された最初のベンチマークである。
論文 参考訳(メタデータ) (2025-11-17T11:45:41Z) - UALM: Unified Audio Language Model for Understanding, Generation and Reasoning [124.19449187588832]
統一音声言語モデル (Unified Audio Language Model, UALM) は、音声理解、テキスト音声生成、マルチモーダル推論を単一モデルで統一することを目的としている。
最初にUALM-Genを提示する。これは音声トークンを直接予測し,最先端の拡散モデルに匹敵する言語モデルである。
UALM-Reasonは、テキストと音声の両方を中間的思考ステップで活用し、複雑な生成作業を容易にするマルチモーダル推論モデルである。
論文 参考訳(メタデータ) (2025-10-13T22:55:01Z) - Spatial Audio Motion Understanding and Reasoning [8.029049649310211]
空間音響推論は、機械が出来事とその空間特性を理解することによって聴覚シーンを解釈することを可能にする。
空間音響エンコーダを導入し,複数の重なり合う事象を検出し,その空間特性,DoA(Direction of Arrival)および音源距離をフレームレベルで推定する。
第2に、移動音源を含む動的オーディオシーンに関する複雑な質問に答えるために、我々のモデルによって抽出された構造化空間属性に対して、大きな言語モデル(LLM)を条件付ける。
論文 参考訳(メタデータ) (2025-09-18T06:53:22Z) - Multi-Domain Audio Question Answering Toward Acoustic Content Reasoning in The DCASE 2025 Challenge [102.84031769492708]
本課題は,多様な音響シーンに対する対話型質問応答における音声モデルをテストするための3つのQAサブセットを定義する。
開発セットの予備的な結果を比較し、モデルとサブセット間で強い変動を示す。
この課題は、音声モデルの音声理解と推論能力を人間レベルに向上することを目的としている。
論文 参考訳(メタデータ) (2025-05-12T09:04:16Z) - Unveiling and Mitigating Bias in Audio Visual Segmentation [9.427676046134374]
コミュニティ研究者は、物体のマスクの音質を改善するために、様々な高度なオーディオ視覚セグメンテーションモデルを開発した。
これらのモデルによって作られたマスクは、最初は可塑性に見えるかもしれないが、しばしば誤った接地論理を持つ異常を示す。
我々はこれを、複雑なオーディオ・視覚的グラウンドよりも単純な学習信号として、現実世界固有の嗜好と分布に帰着する。
論文 参考訳(メタデータ) (2024-07-23T16:55:04Z) - A Survey on Audio Diffusion Models: Text To Speech Synthesis and
Enhancement in Generative AI [64.71397830291838]
生成AIは様々な分野で印象的な性能を示しており、音声合成は興味深い方向である。
拡散モデルを最も一般的な生成モデルとし、テキストから音声への拡張と音声への拡張という2つのアクティブなタスクを試みている。
本研究は,既存の調査を補完する音声拡散モデルに関する調査を行う。
論文 参考訳(メタデータ) (2023-03-23T15:17:15Z) - Learning to Listen: Modeling Non-Deterministic Dyadic Facial Motion [89.01668641930206]
本稿では,対話における対話コミュニケーションをモデル化するための枠組みを提案する。
我々は、対応するリスナー動作の複数の可能性を自動回帰的に出力する。
本手法は,非言語的ダイアド相互作用の多モーダルおよび非決定論的性質を有機的に捕捉する。
論文 参考訳(メタデータ) (2022-04-18T17:58:04Z) - Move2Hear: Active Audio-Visual Source Separation [90.16327303008224]
対象物からの音をより効果的に分離するために、エージェントがインテリジェントに動く必要があるアクティブオーディオビジュアルソース分離問題を紹介します。
エージェントのカメラとマイクロホン配置を時間とともに制御する移動ポリシーを訓練する強化学習アプローチを紹介します。
音源分離のための最大ペイオフで最小の動作シーケンスを見つけるモデルの能力を実証します。
論文 参考訳(メタデータ) (2021-05-15T04:58:08Z) - Audio-visual Speech Separation with Adversarially Disentangled Visual
Representation [23.38624506211003]
音声分離は、複数の同時話者による音声の混合から個々の音声を分離することを目的としている。
本モデルでは,顔検出器を用いて現場の話者数を検出し,視覚情報を用いて順列化問題を回避する。
提案モデルは,最先端のオーディオのみのモデルと3つのオーディオ視覚モデルより優れていることを示す。
論文 参考訳(メタデータ) (2020-11-29T10:48:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。