論文の概要: DOA Estimation with Lightweight Network on LLM-Aided Simulated Acoustic Scenes
- arxiv url: http://arxiv.org/abs/2511.08012v1
- Date: Wed, 12 Nov 2025 01:34:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-12 20:17:03.598094
- Title: DOA Estimation with Lightweight Network on LLM-Aided Simulated Acoustic Scenes
- Title(参考訳): LLMを用いた模擬音響シーンにおける軽量ネットワークによるDOA推定
- Authors: Haowen Li, Zhengding Luo, Dongyuan Shi, Boxiang Wang, Junwei Ji, Ziyi Yang, Woon-Seng Gan,
- Abstract要約: 空間音響および音響信号処理において,方向推定(DOA)が重要である。
奥行き分離可能な畳み込みに基づく軽量なDOA推定モデルであるLightDOAを提案する。
実験結果から,LightDOAは様々な音響シーンで良好な精度とロバスト性が得られることがわかった。
- 参考スコア(独自算出の注目度): 46.0445214387366
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Direction-of-Arrival (DOA) estimation is critical in spatial audio and acoustic signal processing, with wide-ranging applications in real-world. Most existing DOA models are trained on synthetic data by convolving clean speech with room impulse responses (RIRs), which limits their generalizability due to constrained acoustic diversity. In this paper, we revisit DOA estimation using a recently introduced dataset constructed with the assistance of large language models (LLMs), which provides more realistic and diverse spatial audio scenes. We benchmark several representative neural-based DOA methods on this dataset and propose LightDOA, a lightweight DOA estimation model based on depthwise separable convolutions, specifically designed for mutil-channel input in varying environments. Experimental results show that LightDOA achieves satisfactory accuracy and robustness across various acoustic scenes while maintaining low computational complexity. This study not only highlights the potential of spatial audio synthesized with the assistance of LLMs in advancing robust and efficient DOA estimation research, but also highlights LightDOA as efficient solution for resource-constrained applications.
- Abstract(参考訳): 空間音響および音響信号処理においては,方向推定 (DOA) が重要であり, 実世界で広く応用されている。
既存のDOAモデルの多くは、室内インパルス応答(RIR)を伴うクリーン音声を包含することにより、合成データに基づいて訓練されている。
本稿では,より現実的で多様な空間音声シーンを提供する大規模言語モデル(LLM)を用いて構築された最近導入されたデータセットを用いて,DOA推定を再検討する。
我々は,このデータセット上で,いくつかの代表的ニューラルベースDOA手法をベンチマークし,様々な環境におけるミューティチャネル入力に特化して設計された,奥行き分離可能な畳み込みに基づく軽量DOA推定モデルであるLightDOAを提案する。
実験結果から,LightDOAは計算複雑性を低く保ちながら,様々な音響シーンで良好な精度と堅牢性を達成できることが示唆された。
本研究は, 強靭かつ効率的なDOA推定研究を進める上で, LLMの助けを借りて合成された空間オーディオの可能性を強調するとともに, LightDOAを資源制約のあるアプリケーションのための効率的なソリューションとして強調する。
関連論文リスト
- SPUR: A Plug-and-Play Framework for Integrating Spatial Audio Understanding and Reasoning into Large Audio-Language Models [62.14165748145729]
本研究では,空間知覚を伴う大規模オーディオスピーカモデルを備えた,軽量なプラグイン・アプローチであるSPURを紹介する。
SPURは、 (i) チャネルを回転認識、リスナー中心の空間特徴にマッピングし、マルチモーダルアダプタを介して対象のLALMに統合する第1次アンビニクス(FOA)エンコーダと、 (ii) SPUR-Setは、オープンソースのFOA記録を制御されたシミュレーションと組み合わせた空間QAデータセットで、相対方向、標高、距離、および監督された空間推論の重複を強調する。
論文 参考訳(メタデータ) (2025-11-10T01:29:26Z) - Fun-ASR Technical Report [89.84148151617022]
本稿では,大規模データ,大規模モデル容量,LLM統合,強化学習を組み合わせた大規模ALSシステムFun-ASRを提案する。
Fun-ASRは特に実用的なデプロイメントに最適化されており、ストリーミング機能、ノイズの堅牢性、コードスイッチング、ホットワードのカスタマイズ、その他の現実世界のアプリケーション要件を満たすことができる。
運用指向の最適化により、Fun-ASRは実際のアプリケーションデータセット上での最先端のパフォーマンスを実現し、実用的設定におけるその有効性と堅牢性を示す。
論文 参考訳(メタデータ) (2025-09-15T23:19:36Z) - LENS-DF: Deepfake Detection and Temporal Localization for Long-Form Noisy Speech [35.36044093564255]
LENS-DFは、オーディオディープフェイクの検出と時間的局在のトレーニングと評価のための、新しく包括的なレシピである。
自己教師型学習フロントエンドと単純なバックエンドに基づいて実験を行う。
その結果、LENS-DFで生成されたデータを用いてトレーニングしたモデルは、従来のレシピでトレーニングしたモデルよりも一貫して優れていた。
論文 参考訳(メタデータ) (2025-07-22T04:31:13Z) - Latent Acoustic Mapping for Direction of Arrival Estimation: A Self-Supervised Approach [0.0]
本稿では,従来の手法の解釈可能性と,ディープラーニング手法の適応性と効率性を橋渡しする自己教師型フレームワークであるLatent Acoustic Mapping (LAM) モデルを紹介する。
LAMは高解像度の音響マップを生成し、様々な音響条件に適応し、異なるマイクロホンアレイ間で効率的に動作する。
LAMの音響マップは、教師付きモデルの効果的な機能として機能し、DoAEの精度をさらに向上し、適応的で高性能な音像定位システムの実現の可能性を示す。
論文 参考訳(メタデータ) (2025-07-08T03:35:00Z) - Real Acoustic Fields: An Audio-Visual Room Acoustics Dataset and Benchmark [65.79402756995084]
Real Acoustic Fields (RAF)は、複数のモードから実際の音響室データをキャプチャする新しいデータセットである。
RAFは密集した室内音響データを提供する最初のデータセットである。
論文 参考訳(メタデータ) (2024-03-27T17:59:56Z) - AV-RIR: Audio-Visual Room Impulse Response Estimation [49.469389715876915]
室内インパルス応答(RIR)の正確な推定は,音声処理やAR/VR応用において重要である。
本稿では,与えられた残響音声信号と対応する環境の視覚的手がかりからRIRを正確に推定する,新しいマルチモーダルマルチタスク学習手法であるAV-RIRを提案する。
論文 参考訳(メタデータ) (2023-11-30T22:58:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。