論文の概要: SpeechQualityLLM: LLM-Based Multimodal Assessment of Speech Quality
- arxiv url: http://arxiv.org/abs/2512.08238v1
- Date: Tue, 09 Dec 2025 04:39:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-10 22:28:07.810128
- Title: SpeechQualityLLM: LLM-Based Multimodal Assessment of Speech Quality
- Title(参考訳): SpeechQualityLLM:LLMに基づく音声品質のマルチモーダル評価
- Authors: Mahathir Monjur, Shahriar Nirjon,
- Abstract要約: 音声品質評価は電話、VoIP、ストリーミングシステムの中心であり、大量の劣化したオーディオを大規模に監視し、最適化する必要がある。
本稿では,音声エンコーダを言語モデルに結合し,テンプレートベースの質問応答ペアを用いてNISQAコーパスで学習するマルチモーダル音声品質質問応答システムであるSpeechQualityLLMを紹介する。
本システムでは,数値予測を解析し,標準回帰とランキングの指標を用いて評価するテキスト回答を生成する。
- 参考スコア(独自算出の注目度): 2.1178416840822027
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Objective speech quality assessment is central to telephony, VoIP, and streaming systems, where large volumes of degraded audio must be monitored and optimized at scale. Classical metrics such as PESQ and POLQA approximate human mean opinion scores (MOS) but require carefully controlled conditions and expensive listening tests, while learning-based models such as NISQA regress MOS and multiple perceptual dimensions from waveforms or spectrograms, achieving high correlation with subjective ratings yet remaining rigid: they do not support interactive, natural-language queries and do not natively provide textual rationales. In this work, we introduce SpeechQualityLLM, a multimodal speech quality question-answering (QA) system that couples an audio encoder with a language model and is trained on the NISQA corpus using template-based question-answer pairs covering overall MOS and four perceptual dimensions (noisiness, coloration, discontinuity, and loudness) in both single-ended (degraded only) and double-ended (degraded plus clean reference) setups. Instead of directly regressing scores, our system is supervised to generate textual answers from which numeric predictions are parsed and evaluated with standard regression and ranking metrics; on held-out NISQA clips, the double-ended model attains a MOS mean absolute error (MAE) of 0.41 with Pearson correlation of 0.86, with competitive performance on dimension-wise tasks. Beyond these quantitative gains, it offers a flexible natural-language interface in which the language model acts as an audio quality expert: practitioners can query arbitrary aspects of degradations, prompt the model to emulate different listener profiles to capture human variability and produce diverse but plausible judgments rather than a single deterministic score, and thereby reduce reliance on large-scale crowdsourced tests and their monetary cost.
- Abstract(参考訳): 客観的音声品質評価は、電話、VoIP、ストリーミングシステムの中心であり、大量の劣化した音声を大規模に監視し、最適化する必要がある。
PESQやPOLQAのような古典的な指標は人間の平均評価スコア(MOS)を近似するが、慎重に制御された条件と高価な聴取テストを必要とするが、NISQAの回帰MOSや波形や分光器からの複数の知覚次元のような学習ベースのモデルでは、主観的評価と高い相関性は残るが厳密である。
本研究では,音声エンコーダと言語モデルを組み合わせたマルチモーダル音声品質問合せ(QA)システムであるSpeechQualityLLMを紹介する。
NISQAクリップでは,MOS平均絶対誤差(MAE)0.41,ピアソン相関0.86,次元的タスクの競合性能(MOS平均絶対誤差(MAE)0。
実践者は、分解の任意の側面をクエリし、異なるリスナープロファイルをエミュレートして、人間の多様性をキャプチャし、単一の決定論的なスコアではなく、多様だが妥当な判断を生成する。
関連論文リスト
- AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - SALF-MOS: Speaker Agnostic Latent Features Downsampled for MOS Prediction [1.8862680628828246]
音声合成の評価は、客観的指標または主観的指標を用いて行うことができる。
Speaker Agnostic Latent Features (SALF)-Mean Opinion Score (MOS)は,5。
畳み込みのシーケンスを用いて、平均二乗誤差(MSE)、線形一致相関係数(LCC)、スピアマンランク相関係数(SRCC)、ケンドールランク相関係数(KTAU)に基づいて、音声サンプルの潜時特徴を得る。
論文 参考訳(メタデータ) (2025-06-02T10:45:40Z) - Language Barriers: Evaluating Cross-Lingual Performance of CNN and Transformer Architectures for Speech Quality Estimation [9.286959744769792]
目的語品質モデルの言語間一般化は大きな課題である。
主に英語データに基づいて訓練されたモデルは、異なる音素、音節、韻律の特徴を持つ言語に一般化するのに苦労する可能性がある。
本研究では,NISQA,CNNベースモデル,変換器ベースオーディオスペクトログラム変換器(AST)モデルという2つの音声品質モデルの言語間性能について検討した。
論文 参考訳(メタデータ) (2025-02-18T16:22:43Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。