論文の概要: VocalBench-DF: A Benchmark for Evaluating Speech LLM Robustness to Disfluency
- arxiv url: http://arxiv.org/abs/2510.15406v1
- Date: Fri, 17 Oct 2025 08:01:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-20 20:17:34.527014
- Title: VocalBench-DF: A Benchmark for Evaluating Speech LLM Robustness to Disfluency
- Title(参考訳): VocalBench-DF: 音声LLMロバスト性の評価のためのベンチマーク
- Authors: Hongcheng Liu, Yixuan Hou, Heyang Liu, Yuhao Wang, Yanfeng Wang, Yu Wang,
- Abstract要約: 音声-LLMは、多くのアプリケーションにおいて強い性能を示すが、その頑健性は、特に音声の拡散に対して、非常に低テストである。
本研究では,現在音声障害を抱えているユーザとの対話において,現在の音声LLMが性能を維持することができるかどうかを検討する。
- 参考スコア(独自算出の注目度): 28.98083807303608
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While Speech Large Language Models (Speech-LLMs) show strong performance in many applications, their robustness is critically under-tested, especially to speech disfluency. Existing evaluations often rely on idealized inputs, overlooking common disfluencies, particularly those associated with conditions like Parkinson's disease. This work investigates whether current Speech-LLMs can maintain performance when interacting with users who have speech impairments. To facilitate this inquiry, we introduce VocalBench-DF, a framework for the systematic evaluation of disfluency across a multi-dimensional taxonomy. Our evaluation of 22 mainstream Speech-LLMs reveals substantial performance degradation, indicating that their real-world readiness is limited. Further analysis identifies phoneme-level processing and long-context modeling as primary bottlenecks responsible for these failures. Strengthening recognition and reasoning capability from components and pipelines can substantially improve robustness. These findings highlight the urgent need for new methods to improve disfluency handling and build truly inclusive Speech-LLMs
- Abstract(参考訳): 音声大言語モデル(Speech-LLMs)は多くのアプリケーションにおいて高い性能を示すが、その頑健性は、特に音声不規則性に対して、非常に低テストである。
既存の評価は、しばしば理想化された入力に依存し、一般的な相反、特にパーキンソン病のような病態に関係しているものを見渡す。
本研究では,現在音声障害を抱えているユーザとの対話において,現在の音声LLMが性能を維持することができるかどうかを検討する。
この調査を容易にするために,多次元分類における拡散の系統的評価のためのフレームワークであるVocalBench-DFを紹介する。
22の主流音声-LLMを評価した結果,実世界の準備性に限界があることが判明した。
さらに、音素レベル処理と長文モデリングを、これらの故障の原因となる主要なボトルネックとして特定する。
コンポーネントやパイプラインからの認識と推論能力の強化は、ロバスト性を大幅に向上させる。
これらの知見は、真に包括的な音声-LLMの構築と分散処理を改善する新しい方法の必要性を浮き彫りにしている。
関連論文リスト
- Understanding Textual Capability Degradation in Speech LLMs via Parameter Importance Analysis [54.53152524778821]
言語モデル(LLM)への音声の統合は、その能力を大幅に拡張したが、多くの場合、中核となるテキスト能力の弱さを犠牲にしている。
本稿では,パラメータ重要度推定に基づく分析フレームワークを提案する。
レイヤワイズ学習率スケジューリングとローランド適応(LoRA)の2つの緩和戦略について検討する。
実験結果から,両手法は完全な微調整よりもテキスト能力の維持が良好であるとともに,下流の質問応答性能も向上していることがわかった。
論文 参考訳(メタデータ) (2025-09-28T09:04:40Z) - CogBench: A Large Language Model Benchmark for Multilingual Speech-Based Cognitive Impairment Assessment [23.1730341293796]
音声に基づく認知障害評価のための大規模言語モデルの言語間およびサイト間一般化性を評価するための最初のベンチマークであるCagBenchを提案する。
以上の結果から,従来のディープラーニングモデルはドメイン間で変換されると大幅に劣化することがわかった。
本研究は,臨床的に有用で言語学的に堅牢な音声に基づく認知評価ツールを構築するための重要なステップを提供する。
論文 参考訳(メタデータ) (2025-08-05T12:06:16Z) - Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文 参考訳(メタデータ) (2025-05-25T08:37:55Z) - $C^2$AV-TSE: Context and Confidence-aware Audio Visual Target Speaker Extraction [80.57232374640911]
我々はMask-And-Recover (MAR)と呼ばれるモデルに依存しない戦略を提案する。
MARは、モダリティ間およびモダリティ間コンテキスト相関を統合し、抽出モジュール内の大域的推論を可能にする。
各サンプルの難易度を向上するために, 精細信頼スコア(FCS)モデルを導入する。
論文 参考訳(メタデータ) (2025-04-01T13:01:30Z) - Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。
このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。
生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文 参考訳(メタデータ) (2025-01-27T22:47:51Z) - Are Large Language Models Really Robust to Word-Level Perturbations? [68.60618778027694]
本稿では,事前学習した報酬モデルを診断ツールとして活用する,新たな合理的評価手法を提案する。
より長い会話は、質問を理解する能力の観点から言語モデルの包括的把握を示す。
この結果から,LLMは日常言語でよく使われる単語レベルの摂動に対する脆弱性をしばしば示している。
論文 参考訳(メタデータ) (2023-09-20T09:23:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。