論文の概要: Sci-Phi: A Large Language Model Spatial Audio Descriptor
- arxiv url: http://arxiv.org/abs/2510.05542v1
- Date: Tue, 07 Oct 2025 03:06:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.080964
- Title: Sci-Phi: A Large Language Model Spatial Audio Descriptor
- Title(参考訳): Sci-Phi: 大規模言語モデル空間オーディオディスクリプタ
- Authors: Xilin Jiang, Hannes Gamper, Sebastian Braun,
- Abstract要約: Sci-Phi は空間空間エンコーダとスペクトルエンコーダを備えた空間音響モデルである。
1回のパスで最大4つの方向の音源を列挙し、記述する。
性能をわずかに低下させるだけで、実際の部屋のインパルス応答に一般化する。
- 参考スコア(独自算出の注目度): 25.302416479626974
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Acoustic scene perception involves describing the type of sounds, their timing, their direction and distance, as well as their loudness and reverberation. While audio language models excel in sound recognition, single-channel input fundamentally limits spatial understanding. This work presents Sci-Phi, a spatial audio large language model with dual spatial and spectral encoders that estimates a complete parameter set for all sound sources and the surrounding environment. Learning from over 4,000 hours of synthetic first-order Ambisonics recordings including metadata, Sci-Phi enumerates and describes up to four directional sound sources in one pass, alongside non-directional background sounds and room characteristics. We evaluate the model with a permutation-invariant protocol and 15 metrics covering content, location, timing, loudness, and reverberation, and analyze its robustness across source counts, signal-to-noise ratios, reverberation levels, and challenging mixtures of acoustically, spatially, or temporally similar sources. Notably, Sci-Phi generalizes to real room impulse responses with only minor performance degradation. Overall, this work establishes the first audio LLM capable of full spatial-scene description, with strong potential for real-world deployment. Demo: https://sci-phi-audio.github.io/demo
- Abstract(参考訳): 音響シーンの知覚には、音の種類、タイミング、方向、距離、音の大きさ、残響が記述される。
音声言語モデルは音声認識において優れているが、単一チャネル入力は空間的理解を根本的に制限する。
本研究では,空間空間およびスペクトルエンコーダを備えた空間音響大言語モデルであるSci-Phiについて述べる。
Sci-Phiはメタデータを含む4000時間以上の合成一階録音から学び、最大4つの方向の音源を1回のパスで記述し、非方向の背景音と部屋の特徴を記述している。
提案手法は, 音源数, 信号対雑音比, 残響レベル, 音響的, 空間的, 時間的に類似した音源の混合を対象とし, コンテント, 位置, タイミング, 音量, 残響を網羅する15の指標を用いて評価した。
特に、Sci-Phiは、小さな性能劣化だけで実際の部屋のインパルス応答に一般化する。
全体として、この研究は空間シーンの完全な記述が可能な最初のオーディオLLMを確立し、実世界の展開に強い可能性を秘めている。
デモ:https://sci-phi-audio.github.io/demo
関連論文リスト
- SpA2V: Harnessing Spatial Auditory Cues for Audio-driven Spatially-aware Video Generation [50.03810359300705]
SpA2Vは、生成プロセスをオーディオ誘導ビデオ計画とレイアウト接地ビデオ生成の2つの段階に分解する。
入力音声に意味的・空間的アライメントを持たせた実写映像の制作において,SpA2Vが優れていることを示す。
論文 参考訳(メタデータ) (2025-08-01T17:05:04Z) - DualSpec: Text-to-spatial-audio Generation via Dual-Spectrogram Guided Diffusion Model [46.60765174200236]
本稿では,DualSpec というテキスト・音声生成フレームワークを提案する。
まず、音響イベントオーディオから潜時音響表現を抽出するための変分オートエンコーダ(VAE)を訓練する。
最後に、空間音響生成のための潜在音響表現とテキスト特徴から拡散モデルを訓練する。
論文 参考訳(メタデータ) (2025-02-26T09:01:59Z) - ImmerseDiffusion: A Generative Spatial Audio Latent Diffusion Model [2.2927722373373247]
ImmerseDiffusionは音の空間的・時間的・環境的条件を条件とした3次元没入型音像を生成する。
論文 参考訳(メタデータ) (2024-10-19T02:28:53Z) - Both Ears Wide Open: Towards Language-Driven Spatial Audio Generation [32.24603883810094]
ステレオオーディオを空間的コンテキストで制御することは、高いデータコストと不安定な生成モデルのために依然として困難である。
まず,大規模・シミュレーションベース・GPT支援型データセットBEWO-1Mの構築を行った。
空間誘導を利用してテキストから没入型かつ制御可能な空間音声を生成する。
論文 参考訳(メタデータ) (2024-10-14T16:18:29Z) - AV-GS: Learning Material and Geometry Aware Priors for Novel View Acoustic Synthesis [62.33446681243413]
ビュー音響合成は、音源が3Dシーンで出力するモノのオーディオを考慮し、任意の視点でオーディオを描画することを目的としている。
既存の手法では、音声合成の条件として視覚的手がかりを利用するため、NeRFベースの暗黙モデルが提案されている。
本研究では,シーン環境全体を特徴付ける新しいオーディオ・ビジュアル・ガウス・スプレイティング(AV-GS)モデルを提案する。
AV-GSが実世界のRWASやシミュレーションベースのSoundSpacesデータセットの既存の代替品よりも優れていることを検証する。
論文 参考訳(メタデータ) (2024-06-13T08:34:12Z) - BAT: Learning to Reason about Spatial Sounds with Large Language Models [45.757161909533714]
本稿では,空間的シーン解析モデルの音知覚能力と大規模言語モデル(LLM)の自然言語推論能力を組み合わせたBATを提案する。
実験では,空間音知覚と推論の両方において,BATの優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-02T17:34:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。