論文の概要: Hearing Between the Lines: Unlocking the Reasoning Power of LLMs for Speech Evaluation
- arxiv url: http://arxiv.org/abs/2601.13742v2
- Date: Sat, 24 Jan 2026 16:56:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 13:23:48.788429
- Title: Hearing Between the Lines: Unlocking the Reasoning Power of LLMs for Speech Evaluation
- Title(参考訳): 線間聴取:LLMの推論パワーを解き放つ音声評価
- Authors: Arjun Chandra, Kevin Miller, Venkatesh Ravichandran, Constantinos Papayiannis, Venkatesh Saligrama,
- Abstract要約: 大言語モデル(LLM)の判断は、強い推論能力を示すが、テキストコンテンツに限定される。
提案するTRACEは,LLM審査員が音質を判断し,費用対効果と人間対応のS2S評価を実現するための新しいフレームワークである。
HCoTアノテーションとTRACEフレームワークをリリースし、スケーラブルでヒューマンアラインなS2S評価を可能にします。
- 参考スコア(独自算出の注目度): 19.92868268408954
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Model (LLM) judges exhibit strong reasoning capabilities but are limited to textual content. This leaves current automatic Speech-to-Speech (S2S) evaluation methods reliant on opaque and expensive Audio Language Models (ALMs). In this work, we propose TRACE (Textual Reasoning over Audio Cues for Evaluation), a novel framework that enables LLM judges to reason over audio cues to achieve cost-efficient and human-aligned S2S evaluation. To demonstrate the strength of the framework, we first introduce a Human Chain-of-Thought (HCoT) annotation protocol to improve the diagnostic capability of existing judge benchmarks by separating evaluation into explicit dimensions: content (C), voice quality (VQ), and paralinguistics (P). Using this data, TRACE constructs a textual blueprint of inexpensive audio signals and prompts an LLM to render dimension-wise judgments, fusing them into an overall rating via a deterministic policy. TRACE achieves higher agreement with human raters than ALMs and transcript-only LLM judges while being significantly more cost-effective. We will release the HCoT annotations and the TRACE framework to enable scalable and human-aligned S2S evaluation.
- Abstract(参考訳): 大言語モデル(LLM)の判断は、強い推論能力を示すが、テキストコンテンツに限定される。
これにより、不透明で高価な音声言語モデル(ALM)に依存する、現在の音声音声合成(S2S)評価手法が残される。
本研究では,音質評価のためのテキスト推論手法であるTRACE(Textual Reasoning over Audio Cues for Evaluation)を提案する。
フレームワークの強みを実証するために,我々はまずHuman Chain-of-Thought(HCoT)アノテーションプロトコルを導入し,評価をコンテンツ(C)、声質(VQ)、パラ言語学(P)に分割することで,既存の判定ベンチマークの診断能力を向上させる。
このデータを用いて、TRACEは安価なオーディオ信号のテキスト青写真を作成し、LCMに次元的な判断をするよう促し、決定論的ポリシーを通じて全体評価に融合させる。
TRACEはALMや転写のみのLSMの判定よりも、はるかに費用対効果が高い。
HCoTアノテーションとTRACEフレームワークをリリースし、スケーラブルでヒューマンアラインなS2S評価を可能にします。
関連論文リスト
- SageLM: A Multi-aspect and Explainable Large Language Model for Speech Judgement [74.51476422119457]
音声音声合成(S2S)大規模言語モデル(LLM)は、人間とコンピュータの自然な相互作用の基礎となる。
包括的S2S LLM評価のためのエンドツーエンド・マルチアスペクト・説明可能な音声LLMである textttSageLM を提案する。
論文 参考訳(メタデータ) (2025-08-28T15:47:37Z) - S2SBench: A Benchmark for Quantifying Intelligence Degradation in Speech-to-Speech Large Language Models [14.060679420379516]
エンドツーエンドの音声大言語モデル(LLM)は、音声トークンを直接処理し、生成するテキストベースモデルの能力を拡張している。
これはしばしばテキスト入力と比較して推論と生成性能が低下する。
音声LLMの性能劣化を定量化するベンチマークであるS2SBenchを提案する。
論文 参考訳(メタデータ) (2025-05-20T14:42:20Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - CLAIR-A: Leveraging Large Language Models to Judge Audio Captions [73.51087998971418]
機械生成オーディオキャプションの評価は、様々な要因を検討する必要がある複雑なタスクである。
本稿では,大規模言語モデルのゼロショット機能を活用するシンプルで柔軟なCLAIR-Aを提案する。
我々の評価では、CLAIR-Aは従来のメトリクスと比較して品質の人的判断を良く予測する。
論文 参考訳(メタデータ) (2024-09-19T17:59:52Z) - AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。
その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文 参考訳(メタデータ) (2024-02-12T15:41:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。