論文の概要: WildSpeech-Bench: Benchmarking Audio LLMs in Natural Speech Conversation
- arxiv url: http://arxiv.org/abs/2506.21875v1
- Date: Fri, 27 Jun 2025 03:18:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 21:12:23.068478
- Title: WildSpeech-Bench: Benchmarking Audio LLMs in Natural Speech Conversation
- Title(参考訳): WildSpeech-Bench: 自然言語会話におけるオーディオLLMのベンチマーク
- Authors: Jian Zhang, Linhao Zhang, Bokai Lei, Chuhan Wu, Wei Jia, Xiao Zhou,
- Abstract要約: 本稿では,実用的な音声対話における音声大言語モデル(LLM)を徹底的に評価するための新しい手法を提案する。
音声シナリオに関連する実世界のチャットデータを体系的にキュレートし、話者属性や音響条件の多様性を導入し、音声固有の現象でデータセットを増強する。
様々な主流音声モデルの包括的テストと詳細な分析を行い、異なる音声シナリオにおけるモデル性能の顕著な差異を明らかにした。
- 参考スコア(独自算出の注目度): 44.17470719671929
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent multi-modal Large Language Models (LLMs) such as GPT-4o have demonstrated strong capabilities of direct speech interaction. However, the lack of specialized and comprehensive benchmarks for end-to-end speech LLM evaluation hinders optimizing the user experience of Audio LLMs in real-world applications. Existing evaluation methods often adapt text-based benchmarks, overlooking speech's unique characteristics and challenges, including prosody, homophones, stuttering, and differing user expectations. Here, we present a novel approach to thoroughly evaluate LLMs in practical speech conversations. We systematically curate real-world chat data relevant to spoken scenarios, introduce diversity in speaker attributes and acoustic conditions, and augment the dataset with speech-specific phenomena. We further design a query-aware evaluation method to use customized evaluation checklists and prompts to enhance the accuracy of automatic evaluation. We conduct comprehensive testing and detailed analysis of various mainstream speech models, revealing significant differences in model performance across different speech scenarios. The use of query-aware evaluation further enables a finer-grained assessment under various speech-specific scenarios. Our benchmark can provide valuable insights for speech model development and evaluation.
- Abstract(参考訳): GPT-4oのような最近の多モード大言語モデル(LLM)は、直接音声対話の強力な能力を示している。
しかし、エンド・ツー・エンドのLLM評価のための専門的で包括的なベンチマークが欠如しているため、現実のアプリケーションにおけるオーディオLLMのユーザエクスペリエンスの最適化が困難になる。
既存の評価手法は、しばしばテキストベースのベンチマークに適応し、韻律、ホモフォン、発声、ユーザの期待の相違など、音声の特徴や課題を見渡す。
本稿では,実践会話におけるLLMを徹底的に評価するための新しい手法を提案する。
音声シナリオに関連する実世界のチャットデータを体系的にキュレートし、話者属性や音響条件の多様性を導入し、音声固有の現象でデータセットを増強する。
さらに、カスタマイズされた評価チェックリストを使用するクエリ対応評価手法を設計し、自動評価の精度を高めるよう促す。
様々な主流音声モデルの包括的テストと詳細な分析を行い、異なる音声シナリオにおけるモデル性能の顕著な差異を明らかにした。
クエリ・アウェア・アセスメントの使用により、様々な音声シナリオにおいてよりきめ細かいアセスメントが可能になる。
我々のベンチマークは、音声モデルの開発と評価に有用な洞察を与えることができる。
関連論文リスト
- Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。
近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。
以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文 参考訳(メタデータ) (2025-05-25T08:37:55Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - QualiSpeech: A Speech Quality Assessment Dataset with Natural Language Reasoning and Descriptions [45.34333059156364]
包括的低レベル音声品質評価データセットであるQuariSpeechを紹介する。
また,聴覚大言語モデルの低レベル音声理解能力を評価するために,QuariSpeech Benchmarkを提案する。
論文 参考訳(メタデータ) (2025-03-26T07:32:20Z) - VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。
本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文 参考訳(メタデータ) (2025-01-09T04:30:12Z) - Classification of Spontaneous and Scripted Speech for Multilingual Audio [9.925703861731506]
発話スタイルが音声処理研究にどのように影響するかをよりよく理解するためには,自発音声からスクリプトを識別することが不可欠である。
本稿では,様々な形式や言語にまたがってよく一般化された分類器を構築することの課題に対処する。
従来型,手作り音響,韻律的特徴から高度なオーディオトランスフォーマーまで,様々なモデルを体系的に評価する。
論文 参考訳(メタデータ) (2024-12-16T15:45:10Z) - Large Language Model Can Transcribe Speech in Multi-Talker Scenarios with Versatile Instructions [68.98811048970963]
我々は,多話者環境における音声の書き起こしにおける大規模言語モデル(LLM)の能力について,先駆的な研究を行う。
We use WavLM and Whisper encoder to extract multi-faceted speech representations that sensitive to speaker characteristics and semantic context。
提案システムであるMT-LLMのカクテルパーティーシナリオにおける有望な性能について実験を行った。
論文 参考訳(メタデータ) (2024-09-13T07:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。