論文の概要: SEE: Signal Embedding Energy for Quantifying Noise Interference in Large Audio Language Models
- arxiv url: http://arxiv.org/abs/2601.07331v1
- Date: Mon, 12 Jan 2026 08:57:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.29745
- Title: SEE: Signal Embedding Energy for Quantifying Noise Interference in Large Audio Language Models
- Title(参考訳): SEE:大規模音声モデルにおけるノイズ干渉の定量化のための信号埋め込みエネルギー
- Authors: Yuanhe Zhang, Jiayu Tian, Yibo Zhang, Shilinlu Yan, Liang Lin, Zhenhong Zhou, Li Sun, Sen Su,
- Abstract要約: 信号埋め込みエネルギー (Signal Embedding Energy, SEE) は、LALM入力に対する雑音強度の影響を定量化する手法である。
SEEはLALM性能と強い相関を示し,0.98。
本稿では,LALMにおけるノイズ定量化のための新しい指標を提案し,実環境におけるロバスト性向上のためのガイダンスを提供する。
- 参考スコア(独自算出の注目度): 49.313324100819955
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Audio Language Models (LALMs) have been widely applied in real-time scenarios, such as in-car assistants and online meeting comprehension. In practice, audio inputs are often corrupted by device and environmental noise, leading to performance degradation. However, existing LALM studies on noise lack quantitative analysis and rely mainly on intuition and empirical observation, thus failing to understand practical robustness. To address this issue, we introduce Signal Embedding Energy (SEE), a method for quantifying the impact of noise intensity on LALM inputs, enabling the differentiation of LALM robustness in real-world deployments. SEE introduces a perspective based on structured activation subspaces derived from the model's internal representations, which more accurately captures its perception of noise than raw audio features. Across experiments, SEE exhibits a strong correlation with LALM performance, achieving a correlation of 0.98. Surprisingly, traditional audio denoising methods are only marginally effective for LALMs, and, in some cases, even increase SEE and impair performance. This suggests a mismatch between speech-centric denoising objectives and the noise sensitivity of modern LALMs. Therefore, we propose a mitigation strategy derived from SEE to denoise LALM inputs, outperforming existing denoising methods. This paper introduces a novel metric for noise quantification in LALMs, providing guidance for robustness improvements in real-world deployments.
- Abstract(参考訳): 大型オーディオ言語モデル (LALM) は車内アシスタントやオンラインミーティングの理解といったリアルタイムシナリオに広く応用されている。
実際には、オーディオ入力はデバイスや環境ノイズによってしばしば破損し、性能が劣化する。
しかし、既存のLALM研究では定量的分析が欠如しており、主に直観と経験的観察に依存しており、実用的な頑健さを理解できていない。
本稿では,LALM入力に対する雑音強度の影響を定量化する手法であるSignal Embedding Energy (SEE)を導入する。
SEEは、モデルの内部表現から派生した構造化されたアクティベーション部分空間に基づく視点を導入し、生のオーディオ特徴よりもより正確にノイズの知覚を捉える。
実験全体を通して、SEEはLALM性能と強い相関を示し、0.98の相関を達成した。
驚いたことに、従来の音声復調法はLALMに対してわずかに有効であり、場合によってはSEEや不適切なパフォーマンスも向上する。
このことは,現代のLALMの音声中心の聴覚目標と雑音感度のミスマッチを示唆している。
そこで本研究では,SEEから派生したLALM入力を復調する緩和戦略を提案する。
本稿では,LALMにおけるノイズ定量化のための新しい指標を提案し,実環境におけるロバスト性向上のためのガイダンスを提供する。
関連論文リスト
- Real-Time Speech Enhancement via a Hybrid ViT: A Dual-Input Acoustic-Image Feature Fusion [1.376408511310322]
音声品質と知性はノイズの多い環境で著しく劣化する。
本稿では,単一チャネル雑音抑圧問題に対処するトランスフォーマーに基づく新しい学習フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-14T19:27:42Z) - DOA Estimation with Lightweight Network on LLM-Aided Simulated Acoustic Scenes [46.0445214387366]
空間音響および音響信号処理において,方向推定(DOA)が重要である。
奥行き分離可能な畳み込みに基づく軽量なDOA推定モデルであるLightDOAを提案する。
実験結果から,LightDOAは様々な音響シーンで良好な精度とロバスト性が得られることがわかった。
論文 参考訳(メタデータ) (2025-11-11T09:15:06Z) - Harnessing LLM for Noise-Robust Cognitive Diagnosis in Web-Based Intelligent Education Systems [12.91124422916318]
認知診断のための大規模言語モデル(LLM)は、構造化されたデータに苦慮し、ノイズによって引き起こされる誤った判断をしがちである。
ノイズロバスト認知診断のための拡散型LLMフレームワークを提案する。
提案手法は,様々な騒音レベルにまたがる最適な予測性能を実現する。
論文 参考訳(メタデータ) (2025-10-05T08:32:30Z) - Teaching Audio-Aware Large Language Models What Does Not Hear: Mitigating Hallucinations through Synthesized Negative Samples [55.2480439325792]
近年の音声対応大型言語モデル(ALLM)により、音声入力の処理と理解が可能になった。
これらのモデルは、しばしば既存の音響イベントを幻覚させ、現実の応用における信頼性を低下させる。
LISTENは、現在と欠落した音を識別するallMsの能力を向上するコントラスト的な訓練法である。
論文 参考訳(メタデータ) (2025-05-20T15:44:01Z) - Disentangled Noisy Correspondence Learning [56.06801962154915]
クロスモーダル検索は、モダリティ間の潜在対応を理解する上で重要である。
DisNCLはノイズ対応学習における特徴分散のための新しい情報理論フレームワークである。
論文 参考訳(メタデータ) (2024-08-10T09:49:55Z) - Large Language Models are Efficient Learners of Noise-Robust Speech
Recognition [65.95847272465124]
大規模言語モデル(LLM)の最近の進歩は、自動音声認識(ASR)のための生成誤り訂正(GER)を促進している。
本研究では,このベンチマークをノイズの多い条件に拡張し,GERのデノナイジングをLLMに教えることができるかを検討する。
最新のLLM実験では,単語誤り率を最大53.9%改善し,新たなブレークスルーを実現している。
論文 参考訳(メタデータ) (2024-01-19T01:29:27Z) - Inference and Denoise: Causal Inference-based Neural Speech Enhancement [83.4641575757706]
本研究では、雑音の存在を介入としてモデル化することにより、因果推論パラダイムにおける音声強調(SE)課題に対処する。
提案した因果推論に基づく音声強調(CISE)は,ノイズ検出器を用いて間欠雑音音声中のクリーンフレームとノイズフレームを分離し,両フレームセットを2つのマスクベース拡張モジュール(EM)に割り当て,ノイズ条件SEを実行する。
論文 参考訳(メタデータ) (2022-11-02T15:03:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。