Fugu-MT 論文翻訳(概要): URO-Bench: A Comprehensive Benchmark for End-to-End Spoken Dialogue Models

論文の概要: URO-Bench: A Comprehensive Benchmark for End-to-End Spoken Dialogue Models

arxiv url: http://arxiv.org/abs/2502.17810v1
Date: Tue, 25 Feb 2025 03:31:48 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-26 19:56:49.71743
Title: URO-Bench: A Comprehensive Benchmark for End-to-End Spoken Dialogue Models
Title（参考訳）: URO-Bench: エンドツーエンド対話モデルのための総合ベンチマーク
Authors: Ruiqi Yan, Xiquan Li, Wenxi Chen, Zhikang Niu, Chen Yang, Ziyang Ma, Kai Yu, Xie Chen,
Abstract要約: 音声対話モデル(SDM)の広範なベンチマークであるURO-Benchを提案する。 URO-BenchはS2Sベンチマークで、多言語主義、多ラウンド対話、パラ言語学の評価をカバーしている。ベンチマークは、基本トラックとプロトラックの2つの難易度に分類され、それぞれ16と20のデータセットで構成されている。
参考スコア（独自算出の注目度）: 8.882948576463244
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: In recent years, with advances in large language models (LLMs), end-to-end spoken dialogue models (SDMs) have made significant strides. Compared to text-based LLMs, the evaluation of SDMs needs to take speech-related aspects into account, such as paralinguistic information and speech quality. However, there is still a lack of comprehensive evaluations for SDMs in speech-to-speech (S2S) scenarios. To address this gap, we propose URO-Bench, an extensive benchmark for SDMs. Notably, URO-Bench is the first S2S benchmark that covers evaluations about multilingualism, multi-round dialogues, and paralinguistics. Our benchmark is divided into two difficulty levels: basic track and pro track, consisting of 16 and 20 datasets respectively, evaluating the model's abilities in Understanding, Reasoning, and Oral conversation. Evaluations on our proposed benchmark reveal that current open-source SDMs perform rather well in daily QA tasks, but lag behind their backbone LLMs in terms of instruction-following ability and also suffer from catastrophic forgetting. Their performance in advanced evaluations of paralinguistic information and audio understanding remains subpar, highlighting the need for further research in this direction. We hope that URO-Bench can effectively facilitate the development of spoken dialogue models by providing a multifaceted evaluation of existing models and helping to track progress in this area.
Abstract（参考訳）: 近年,大規模言語モデル (LLM) の発展に伴い, エンドツーエンド音声対話モデル (SDM) は大きな進歩を遂げている。テキストベースのLLMと比較して、SDMの評価は、パラ言語情報や音声品質など、音声に関連する側面を考慮する必要がある。しかし、音声合成(S2S)のシナリオでは、SDMの総合的な評価がまだ不十分である。このギャップに対処するため、我々はSDMの広範なベンチマークであるURO-Benchを提案する。特に、URO-Benchは、多言語主義、多ラウンド対話、およびパラ言語学の評価をカバーした最初のS2Sベンチマークである。ベンチマークは,基本トラックとプロトラックの2つの難易度に分類され,それぞれ16と20のデータセットで構成され,理解,推論,口頭会話におけるモデルの能力を評価する。提案したベンチマークの結果から,現在のオープンソースSDMは日々のQAタスクでは良好に機能するが,命令追従能力の面では背骨LLMに遅れがみられ,しかも破滅的な忘れ込みに悩まされていることが明らかとなった。パラ言語情報と音声理解の高度な評価におけるそれらの性能は、この方向へのさらなる研究の必要性を浮き彫りにしたままである。 URO-Benchは,既存のモデルの多面的評価を提供することで,音声対話モデルの開発を効果的に促進し,この領域の進展の追跡を支援することを期待する。

関連論文リスト

VCB Bench: An Evaluation Benchmark for Audio-Grounded Large Language Model Conversational Agents [53.33704332801441]
大規模音声言語モデル (LALM) は多モード対話システムを大幅に強化した。既存のベンチマークは主に英語中心であり、合成音声に依存しており、包括的で差別的な評価を欠いている。我々はVoice Chat Bot Bench(VCB Bench)を紹介します。
論文参考訳（メタデータ） (2025-10-13T07:45:52Z)
AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。 AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文参考訳（メタデータ） (2025-08-29T07:40:39Z)
MTalk-Bench: Evaluating Speech-to-Speech Models in Multi-Turn Dialogues via Arena-style and Rubrics Protocols [46.82669096251444]
MTalk-Benchは、セマンティックインフォメーション、パラ言語情報、アンビエントサウンドの3つのコアディメンションをカバーするマルチターンS2Sベンチマークである。両手法評価フレームワークは,相対的,絶対的評価にアリーナ式評価(ペアワイズ比較)と絶対的評価(絶対的評価)を組み合わせる。結果は、S2S評価の現在の制限と、より堅牢で音声対応のアセスメントフレームワークの必要性を強調している。
論文参考訳（メタデータ） (2025-08-22T12:14:17Z)
Speech-IFEval: Evaluating Instruction-Following and Quantifying Catastrophic Forgetting in Speech-Aware Language Models [49.1574468325115]
本稿では,命令追従能力を評価するための評価フレームワークであるSpeech-IFevalを紹介する。近年のSLMは,音声認識を大規模言語モデル (LLM) と統合し,音声中心の訓練によるテキスト能力の低下を招いている。以上の結果から, SLM はテキストベースの LLM よりもはるかに高い性能を示し, 基本命令にも耐え難いことが示唆された。
論文参考訳（メタデータ） (2025-05-25T08:37:55Z)
Full-Duplex-Bench: A Benchmark to Evaluate Full-duplex Spoken Dialogue Models on Turn-taking Capabilities [93.09944267871163]
FullDuplexBenchは、重要な会話動作を体系的に評価するベンチマークである。音声対話のモデリングを推進し、よりインタラクティブで自然な対話システムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2025-03-06T18:59:16Z)
Audio Large Language Models Can Be Descriptive Speech Quality Evaluators [46.765203628127345]
本稿では,人間格付けから生成した最初の自然言語に基づく音声評価コーパスについて紹介する。このコーパスは、複数の次元にわたる詳細な分析を提供し、品質劣化の原因を特定する。生音声から関連情報を抽出するために,LLM蒸留(ALLD)を用いたアライメント手法を提案する。
論文参考訳（メタデータ） (2025-01-27T22:47:51Z)
VoxEval: Benchmarking the Knowledge Understanding Capabilities of End-to-End Spoken Language Models [32.086847480051084]
本稿では、純粋音声対話による知識理解を評価する新しいSpeechQAベンチマークであるVoxEvalを提案する。本ベンチマーク1は,入力と出力の両方の音声形式を維持し,2)多様な入力音声条件のモデルロバスト性を評価し,3)音声形式における数学的推論のような複雑なタスクの評価を先駆する。
論文参考訳（メタデータ） (2025-01-09T04:30:12Z)
AIR-Bench: Benchmarking Large Audio-Language Models via Generative Comprehension [95.8442896569132]
AIR-Benchは,Large Audio-Language Models (LALM) の様々な種類の音声信号を理解し,テキスト形式で人間と対話する能力を評価する最初のベンチマークである。その結果, GPT-4による評価と人間による評価との間には高い一貫性が認められた。
論文参考訳（メタデータ） (2024-02-12T15:41:22Z)
Are LLMs Robust for Spoken Dialogues? [10.855403629160921]
大規模な事前学習型言語モデルでは、さまざまな下流タスクで最先端のパフォーマンスが実証されている。タスク指向対話に関する公開データセットとベンチマークのほとんどは、書かれた会話に重点を置いている。 DSTC11テストセットにおける音声タスク指向対話におけるLLMの性能評価を行った。
論文参考訳（メタデータ） (2024-01-04T14:36:38Z)
Simple LLM Prompting is State-of-the-Art for Robust and Multilingual Dialogue Evaluation [7.767020408405403]
本稿では,既存の評価モデルの強みを生かして,大規模言語モデル(LLM)の促進という新たなパラダイムを提案する。実験により,本フレームワークは,いくつかのベンチマークにおいて,平均スピアマン相関スコアを用いて,技術結果の状態を達成していることを示す。
論文参考訳（メタデータ） (2023-08-31T15:19:28Z)
Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文参考訳（メタデータ） (2023-07-16T15:18:25Z)
SpokenWOZ: A Large-Scale Speech-Text Benchmark for Spoken Task-Oriented Dialogue Agents [72.42049370297849]
SpokenWOZは音声TODのための大規模音声テキストデータセットである。 SpokenWOZでは、クロスターンスロットと推論スロット検出が新たな課題である。
論文参考訳（メタデータ） (2023-05-22T13:47:51Z)
Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文参考訳（メタデータ） (2023-05-19T16:27:43Z)
Don't Copy the Teacher: Data and Model Challenges in Embodied Dialogue [92.01165203498299]
後続の身体的対話命令は、自然言語交換から複雑なタスクのシーケンスを完了させるエージェントを必要とする。本稿では,模倣学習(IL)と関連する低レベルメトリクスが,実際には誤解を招くものであり,具体的対話研究の目標と一致していないことを論じる。
論文参考訳（メタデータ） (2022-10-10T05:51:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。