論文の概要: Spatial Audio Motion Understanding and Reasoning
- arxiv url: http://arxiv.org/abs/2509.14666v1
- Date: Thu, 18 Sep 2025 06:53:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-19 17:26:53.099786
- Title: Spatial Audio Motion Understanding and Reasoning
- Title(参考訳): 空間的音声の動作理解と推論
- Authors: Arvind Krishna Sridhar, Yinyi Guo, Erik Visser,
- Abstract要約: 空間音響推論は、機械が出来事とその空間特性を理解することによって聴覚シーンを解釈することを可能にする。
空間音響エンコーダを導入し,複数の重なり合う事象を検出し,その空間特性,DoA(Direction of Arrival)および音源距離をフレームレベルで推定する。
第2に、移動音源を含む動的オーディオシーンに関する複雑な質問に答えるために、我々のモデルによって抽出された構造化空間属性に対して、大きな言語モデル(LLM)を条件付ける。
- 参考スコア(独自算出の注目度): 8.029049649310211
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Spatial audio reasoning enables machines to interpret auditory scenes by understanding events and their spatial attributes. In this work, we focus on spatial audio understanding with an emphasis on reasoning about moving sources. First, we introduce a spatial audio encoder that processes spatial audio to detect multiple overlapping events and estimate their spatial attributes, Direction of Arrival (DoA) and source distance, at the frame level. To generalize to unseen events, we incorporate an audio grounding model that aligns audio features with semantic audio class text embeddings via a cross-attention mechanism. Second, to answer complex queries about dynamic audio scenes involving moving sources, we condition a large language model (LLM) on structured spatial attributes extracted by our model. Finally, we introduce a spatial audio motion understanding and reasoning benchmark dataset and demonstrate our framework's performance against the baseline model.
- Abstract(参考訳): 空間音声推論は、機械が出来事とその空間特性を理解することによって聴覚シーンを解釈することを可能にする。
本研究では,移動音源の推論に重点を置いた空間的音声理解に焦点を当てた。
まず,空間音響エンコーダを導入し,複数の重なり合う事象を検出し,その空間特性,DoA(Direction of Arrival)および音源距離をフレームレベルで推定する。
そこで本研究では,音声特徴とセマンティックな音声クラステキストの埋め込みを,クロスアテンション機構を介して協調する音声接地モデルを構築した。
第2に、移動音源を含む動的オーディオシーンに関する複雑な質問に答えるために、我々のモデルによって抽出された構造化空間属性に対して、大きな言語モデル(LLM)を条件付ける。
最後に,空間的音声の動作理解と推論のベンチマークデータセットを導入し,ベースラインモデルに対する我々のフレームワークの性能を実証する。
関連論文リスト
- SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - ThinkSound: Chain-of-Thought Reasoning in Multimodal Large Language Models for Audio Generation and Editing [52.33281620699459]
ThinkSoundは、Chain-of-Thought(CoT)推論を利用して、ビデオの段階的にインタラクティブなオーディオ生成と編集を可能にする新しいフレームワークである。
提案手法は,3つの相補的な段階に分解する: セマンティック・コヒーレント, 正確なユーザインタラクションによる対話型オブジェクト中心の洗練, 自然言語命令でガイドされたターゲット編集。
実験により、ThinkSoundはオーディオメトリクスとCoTメトリクスの両方で、ビデオからオーディオ生成における最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-06-26T16:32:06Z) - DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model [46.60765174200236]
本稿では,DualSpec というテキスト・音声生成フレームワークを提案する。
まず、音響イベントオーディオから潜時音響表現を抽出するための変分オートエンコーダ(VAE)を訓練する。
最後に、空間音響生成のための潜在音響表現とテキスト特徴から拡散モデルを訓練する。
論文 参考訳(メタデータ) (2025-02-26T09:01:59Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず,大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mの構築を行った。
空間誘導を利用してテキストから没入型かつ制御可能な空間音声を生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z) - Audio-Visual Spatial Integration and Recursive Attention for Robust
Sound Source Localization [13.278494654137138]
人間は、音源を見つけるための空間的手がかりとして、オーディオと視覚の両方のモダリティを利用する。
両モードの空間的手がかりを統合した音声・視覚空間統合ネットワークを提案する。
提案手法はより堅牢な音源定位を実現する。
論文 参考訳(メタデータ) (2023-08-11T11:57:58Z) - Separate Anything You Describe [53.30484933564858]
言語クエリオーディオソース分離(LASS)は,CASA(Computer auditory scene analysis)の新しいパラダイムである
AudioSepは、自然言語クエリによるオープンドメインオーディオソース分離の基礎モデルである。
論文 参考訳(メタデータ) (2023-08-09T16:09:44Z) - Learning Representations from Audio-Visual Spatial Alignment [76.29670751012198]
音声・視覚コンテンツから表現を学習するための新しい自己教師型プレテキストタスクを提案する。
提案したプリテキストタスクの利点は、様々なオーディオおよびビジュアルダウンストリームタスクで実証される。
論文 参考訳(メタデータ) (2020-11-03T16:20:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。