論文の概要: PhaseCoder: Microphone Geometry-Agnostic Spatial Audio Understanding for Multimodal LLMs
- arxiv url: http://arxiv.org/abs/2601.21124v1
- Date: Wed, 28 Jan 2026 23:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-30 16:22:49.481381
- Title: PhaseCoder: Microphone Geometry-Agnostic Spatial Audio Understanding for Multimodal LLMs
- Title(参考訳): PhaseCoder:マルチモーダルLLMのためのマイクロホン幾何学-非依存空間音声理解
- Authors: Artem Dementyev, Wazeer Zulfikar, Sinan Hersek, Pascal Getreuer, Anurag Kumar, Vivek Kumar,
- Abstract要約: 本稿では,変圧器のみの空間オーディオエンコーダであるPyseCoderを紹介する。
PhaseCoderは、生のオーディオとマイクロフォンの座標を入力として、ローカライゼーションを行い、堅牢な空間埋め込みを生成する。
マイクロホン不変ローカライゼーションベンチマークにおいて,エンコーダの動作状態を示すとともに,LLMが任意のマイクロホンアレイから複雑な空間的推論および目標転写タスクを行うことを可能にする。
- 参考スコア(独自算出の注目度): 9.985118023353897
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current multimodal LLMs process audio as a mono stream, ignoring the rich spatial information essential for embodied AI. Existing spatial audio models, conversely, are constrained to fixed microphone geometries, preventing deployment across diverse devices. We present PhaseCoder, a transformer-only spatial audio encoder that is agnostic to microphone geometry. PhaseCoder takes raw multichannel audio and microphone coordinates as inputs to perform localization and produces robust spatial embeddings. We demonstrate that Gemma 3n LLM can be fine-tuned to reason over "Spatial Audio Tokens" produced by PhaseCoder. We show our encoder achieves state-of-the-art results on microphone-invariant localization benchmarks and, for the first time, enables an LLM to perform complex spatial reasoning and targeted transcription tasks from an arbitrary microphone array.
- Abstract(参考訳): 現在のマルチモーダルLLMは音声をモノストリームとして処理し、エンボディAIに必要な豊富な空間情報を無視する。
既存の空間音響モデルは固定マイクロホンのジオメトリに制約されており、多様なデバイスへの展開を妨げている。
本稿では,マイクロホン形状に依存しないトランスフォーマーのみの空間オーディオエンコーダであるPyseCoderを提案する。
PhaseCoderは、生のマルチチャンネルオーディオとマイクロフォン座標を入力として、ローカライゼーションを行い、堅牢な空間埋め込みを生成する。
Gemma 3n LLM は PhaseCoder が生成した "Spatial Audio Tokens" に基づいて微調整できることを示す。
我々は,マイクロホン不変ローカライゼーションベンチマークにおいて,エンコーダが最先端の結果を達成し,LLMが任意のマイクロホンアレイから複雑な空間的推論とターゲット転写タスクを実行できることを示す。
関連論文リスト
- LAMB: LLM-based Audio Captioning with Modality Gap Bridging via Cauchy-Schwarz Divergence [35.123477091633866]
LAMBは、オーディオ埋め込みとテキスト埋め込み空間の間のモダリティギャップを橋渡しするオーディオキャプションフレームワークである。
クロスモーダルアリグナーは、相互情報を最大化しながら、コーシー=シュワルツの発散を最小限にする。
セマンティックにリッチなオーディオ埋め込みを抽出するTwo-Stream Adapterは、よりリッチな情報をCross-Modal Alignerに提供する。
論文 参考訳(メタデータ) (2026-01-08T07:05:35Z) - ViSAudio: End-to-End Video-Driven Binaural Spatial Audio Generation [55.76423101183408]
ViSAudioは、条件付きフローマッチングとデュアルブランチオーディオ生成アーキテクチャを利用するエンドツーエンドフレームワークである。
空間浸漬による高品質なオーディオを生成し、視点の変化、音源の動き、様々な音響環境に適応する。
論文 参考訳(メタデータ) (2025-12-02T18:56:12Z) - Towards Audio Token Compression in Large Audio Language Models [26.379508239446935]
大規模オーディオ言語モデル(LALM)は、様々なタスクにまたがる素晴らしいパフォーマンスを示している。
しかし、そのスケーラビリティは、注意の二次的な複雑さと、音声信号の高いトークンレートによって制限される。
本稿では,LALMのオーディオエンコーダが生成する音声トークン数を,LCMデコーダが消費する前に削減する手法について検討する。
論文 参考訳(メタデータ) (2025-11-26T02:00:38Z) - SPUR: A Plug-and-Play Framework for Integrating Spatial Audio Understanding and Reasoning into Large Audio-Language Models [62.14165748145729]
本研究では,空間知覚を伴う大規模オーディオスピーカモデルを備えた,軽量なプラグイン・アプローチであるSPURを紹介する。
SPURは、 (i) チャネルを回転認識、リスナー中心の空間特徴にマッピングし、マルチモーダルアダプタを介して対象のLALMに統合する第1次アンビニクス(FOA)エンコーダと、 (ii) SPUR-Setは、オープンソースのFOA記録を制御されたシミュレーションと組み合わせた空間QAデータセットで、相対方向、標高、距離、および監督された空間推論の重複を強調する。
論文 参考訳(メタデータ) (2025-11-10T01:29:26Z) - Large Language Models are Strong Audio-Visual Speech Recognition Learners [53.142635674428874]
マルチモーダル・大規模言語モデル(MLLM)は,近年,多モーダル理解能力の強化により,研究の焦点となっている。
本稿では,Llama-AVSRを提案する。
我々は,最大公的なAVSRベンチマークであるLSS3に対する提案手法を評価し,WERが0.79%,AVSRが0.77%であるASRとAVSRのタスクに対して,新しい最先端の結果が得られることを示した。
論文 参考訳(メタデータ) (2024-09-18T21:17:27Z) - wav2pos: Sound Source Localization using Masked Autoencoders [12.306126455995603]
本稿では,分散アドホックマイクロホンアレイの3次元音源定位タスクに対して,それをセット・ツー・セット回帰問題として定式化し,新しい手法を提案する。
このような定式化は,入力に隠された座標を再構成することにより,音源の正確な位置決めを可能にすることを示す。
論文 参考訳(メタデータ) (2024-08-28T13:09:20Z) - Multimodal Data and Resource Efficient Device-Directed Speech Detection
with Large Foundation Models [43.155061160275196]
トリガーフレーズを不要にすることで,仮想アシスタントとの対話をより自然なものにする可能性を探る。
我々の目標は、デバイスマイクが記録したストリーミングオーディオから得られる信号に基づいて、仮想アシスタントに対処するかどうかを判断することである。
本稿では,音声認識システムからの1-best仮説とデコーダ信号と,オーディオエンコーダからの音響表現を組み合わせることで,この問題に対処する。
論文 参考訳(メタデータ) (2023-12-06T17:29:03Z) - Multi-Channel End-to-End Neural Diarization with Distributed Microphones [53.99406868339701]
EENDのTransformerエンコーダを,マルチチャネル入力を処理する2種類のエンコーダに置き換える。
また,単一チャンネル記録のみを用いたモデル適応手法を提案する。
論文 参考訳(メタデータ) (2021-10-10T03:24:03Z) - Improved MVDR Beamforming Using LSTM Speech Models to Clean Spatial
Clustering Masks [14.942060304734497]
空間クラスタリング技術は、比較的任意のマイクロホン構成で大きなマルチチャネルノイズ低減を実現することができる。
LSTMニューラルネットワークは、単一チャネル入力のノイズから音声を認識するために訓練されているが、マルチチャネル記録における情報を完全に活用することは困難である。
本稿では,これら2つのアプローチを統合し,モデルベースEMソース分離局所化法(MESSL)により生成されたマスクを除去するためにLSTM音声モデルを訓練する。
論文 参考訳(メタデータ) (2020-12-02T22:35:00Z) - Multi-microphone Complex Spectral Mapping for Utterance-wise and
Continuous Speech Separation [79.63545132515188]
残響条件下での話者分離のためのマルチマイクロホン複合スペクトルマッピングを提案する。
本システムは,所定の形状に配置された固定数のマイクロホンに基づいて,室内インパルス応答のシミュレーションに基づいて学習する。
シミュレーションされたSMS-WSJコーパスと実記録したLibriCSSデータセット上で,最先端の分離性能が得られる。
論文 参考訳(メタデータ) (2020-10-04T22:13:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。