論文の概要: Audio Large Language Models Can Be Descriptive Speech Quality Evaluators
- arxiv url: http://arxiv.org/abs/2501.17202v2
- Date: Wed, 12 Mar 2025 02:01:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-13 15:34:59.530793
- Title: Audio Large Language Models Can Be Descriptive Speech Quality Evaluators
- Title(参考訳): 音声大言語モデルは記述型音声品質評価器になりうる
- Authors: Chen Chen, Yuchen Hu, Siyin Wang, Helin Wang, Zhehuai Chen, Chao Zhang, Chao-Han Huck Yang, Eng Siong Chng,
- Abstract要約: 本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
- 参考スコア(独自算出の注目度): 46.765203628127345
- License:
- Abstract: An ideal multimodal agent should be aware of the quality of its input modalities. Recent advances have enabled large language models (LLMs) to incorporate auditory systems for handling various speech-related tasks. However, most audio LLMs remain unaware of the quality of the speech they process. This limitation arises because speech quality evaluation is typically excluded from multi-task training due to the lack of suitable datasets. To address this, we introduce the first natural language-based speech evaluation corpus, generated from authentic human ratings. In addition to the overall Mean Opinion Score (MOS), this corpus offers detailed analysis across multiple dimensions and identifies causes of quality degradation. It also enables descriptive comparisons between two speech samples (A/B tests) with human-like judgment. Leveraging this corpus, we propose an alignment approach with LLM distillation (ALLD) to guide the audio LLM in extracting relevant information from raw speech and generating meaningful responses. Experimental results demonstrate that ALLD outperforms the previous state-of-the-art regression model in MOS prediction, with a mean square error of 0.17 and an A/B test accuracy of 98.6%. Additionally, the generated responses achieve BLEU scores of 25.8 and 30.2 on two tasks, surpassing the capabilities of task-specific models. This work advances the comprehensive perception of speech signals by audio LLMs, contributing to the development of real-world auditory and sensory intelligent agents.
- Abstract(参考訳): 理想的なマルチモーダルエージェントは、入力モダリティの品質を認識しなければならない。
近年,大規模言語モデル (LLM) は様々な音声関連タスクを扱う聴覚システムを組み込むことが可能である。
しかし、ほとんどのオーディオLLMは、処理する音声の品質に気付かないままである。
この制限は、適切なデータセットがないため、音声品質評価がマルチタスクトレーニングから除外されることが一般的である。
そこで本研究では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
MOS(Mean Opinion Score)の全体に加えて、このコーパスは複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
また、2つの音声サンプル(A/Bテスト)と人間のような判断との記述的比較を可能にする。
このコーパスを活用することで、生音声から関連情報を抽出し、有意義な応答を生成するために、LLM蒸留(ALLD)とのアライメントアプローチを提案する。
MOS予測では、平均2乗誤差が0.17、A/Bテスト精度が98.6%で、ALLDが従来の最先端回帰モデルよりも優れていることを示す実験結果が得られた。
さらに、生成された応答は2つのタスクでBLEUスコア25.8と30.2を達成し、タスク固有モデルの能力を上回る。
この研究は、音声LLMによる音声信号の包括的認識を促進し、現実世界の聴覚および知覚知能エージェントの開発に寄与する。
関連論文リスト
- Language Barriers: Evaluating Cross-Lingual Performance of CNN and Transformer Architectures for Speech Quality Estimation [9.286959744769792]
目的語品質モデルの言語間一般化は大きな課題である。
主に英語データに基づいて訓練されたモデルは、異なる音素、音節、韻律の特徴を持つ言語に一般化するのに苦労する可能性がある。
本研究では,NISQA,CNNベースモデル,変換器ベースオーディオスペクトログラム変換器(AST)モデルという2つの音声品質モデルの言語間性能について検討した。
論文 参考訳(メタデータ) (2025-02-18T16:22:43Z) - Enabling Auditory Large Language Models for Automatic Speech Quality Evaluation [22.680876747656633]
音声品質評価は通常、平均評価スコア(MOS)や話者類似度(SIM)など、複数の側面から音声を評価する必要がある。
本稿では,最近導入された聴覚大言語モデル(LLM)を用いた音声品質自動評価手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T05:44:44Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z) - Self-supervised models of audio effectively explain human cortical
responses to speech [71.57870452667369]
我々は、自己教師型音声表現学習の進歩に乗じて、人間の聴覚システムの最先端モデルを作成する。
これらの結果から,ヒト大脳皮質における音声処理の異なる段階に関連する情報の階層構造を,自己教師型モデルで効果的に把握できることが示唆された。
論文 参考訳(メタデータ) (2022-05-27T22:04:02Z) - MBI-Net: A Non-Intrusive Multi-Branched Speech Intelligibility
Prediction Model for Hearing Aids [22.736703635666164]
本稿では,聴覚補聴器(HA)利用者の主観的了解度スコアを予測するためのマルチブランチ音声明瞭度予測モデル(MBI-Net)を提案する。
2つの枝の出力は、線形層を介して融合され、予測された音声の可知性スコアを得る。
論文 参考訳(メタデータ) (2022-04-07T09:13:44Z) - Towards Language Modelling in the Speech Domain Using Sub-word
Linguistic Units [56.52704348773307]
音節や音素を含む言語単位に基づくLSTMに基づく新しい生成音声LMを提案する。
限られたデータセットでは、現代の生成モデルで要求されるものよりも桁違いに小さいので、我々のモデルはバブリング音声を近似する。
補助的なテキストLM,マルチタスク学習目標,補助的な調音特徴を用いた訓練の効果を示す。
論文 参考訳(メタデータ) (2021-10-31T22:48:30Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。