論文の概要: Speech-DRAME: A Framework for Human-Aligned Benchmarks in Speech Role-Play
- arxiv url: http://arxiv.org/abs/2511.01261v1
- Date: Mon, 03 Nov 2025 06:12:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.137774
- Title: Speech-DRAME: A Framework for Human-Aligned Benchmarks in Speech Role-Play
- Title(参考訳): Speech-DRAME: 音声ロールプレイにおける人為的ベンチマークのためのフレームワーク
- Authors: Jiatong Shi, Jionghao Han, Yichen Lu, Santiago Pascual, Pengfei Wu, Chenye Cui, Shinji Watanabe, Chao Weng, Cong Zhou,
- Abstract要約: Speech-DRAMEは3つのレベルで貢献する統合フレームワークである。
音声ロールプレイを評価するための、最初の包括的で再現可能な基盤を提供する。
- 参考スコア(独自算出の注目度): 68.54773980519457
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Role-play has become a key testbed for generative models, expanding from text-only dialogue to multimodal interaction. Extending role-play to speech captures prosody, emotion, and delivery, but also poses new evaluation challenges. Current pipelines often use audio large language models (ALLMs) as zero-shot judges, which miss paralinguistic cues, collapse multiple aspects into coarse scores, and rely on synthetic speech references that fail to reflect real-world roles. We present Speech-DRAME, a unified framework that contributes at three levels: (i) Speech-DRAME-EvalBench, an evaluation benchmark with bilingual human-annotated data and protocols for training and testing speech evaluation models (SEMs), (ii) DRAME-Eval, a fine-tuned evaluation model, which substantially outperforms zero-shot and few-shot ALLMs, and (iii) Speech-DRAME-RoleBench, a speech role-play benchmark that leverages DRAME-Eval as an automatic judge to compare speech foundation models (SFMs). Speech-DRAME distinguishes between two complementary evaluation strategies: Archetype Evaluation, a top-down approach measuring adherence to broad role archetypes, and Realism Evaluation, a bottom-up approach grounded in real human speech that emphasizes nuanced role quality. Compared to zero-shot ALLM judges, DRAME-Eval achieves stronger agreement with human ratings (Pearson correlation from 0.480 to 0.629 in archetypes, and 0.390 to 0.625 in realism). By integrating transparent benchmark resources, modeling approaches, and system-level evaluation, Speech-DRAME provides the first comprehensive, reproducible foundation for assessing spoken role-play.
- Abstract(参考訳): ロールプレイは生成モデルの主要なテストベッドとなり、テキストのみの対話からマルチモーダルインタラクションへと拡張された。
ロールプレイを音声に拡張することは、韻律、感情、配信を捉えるだけでなく、新たな評価課題も生み出す。
現在のパイプラインでは、ゼロショットの判断としてオーディオ大言語モデル(ALLM)がよく使われており、パラ言語的な手がかりを見逃し、複数の側面を粗いスコアに分解し、現実世界の役割を反映できない合成音声参照に依存している。
我々は3つのレベルにコントリビュートする統合フレームワークであるSpeech-DRAMEを紹介する。
(i)音声評価モデル(SEM)の訓練・試験のためのバイリンガルな人間記述データとプロトコルを用いた評価ベンチマーク「Speech-DRAME-EvalBench」
(II)DRAME-Evalは、ゼロショットと少数ショットのALLMを大幅に上回り、微調整された評価モデルである。
3)Speech-DRAME-RoleBenchは,音声基礎モデル(SFM)を比較するために,DRAME-Evalを自動判断として活用する音声ロールプレイベンチマークである。
音声-DRAMEは、2つの相補的な評価戦略を区別する。Arcetype Evaluation, 幅広い役割のアーチタイプへの付着度を測定するトップダウンアプローチ, およびNuanced Role Qualityを強調する実際の人間の音声に基礎を置くボトムアップアプローチであるRealism Evaluationである。
ゼロショットのALLM審査員と比較すると、DRAME-Evalは人間の評価とより強い一致(ピアソン相関は古式では0.480から0.629、リアリズムでは0.390から0.625)を達成している。
透過的なベンチマークリソース、モデリングアプローチ、システムレベルの評価を統合することで、Speech-DRAMEは、音声ロールプレイを評価するための、初めて包括的な再現可能な基盤を提供する。
関連論文リスト
- VoxRole: A Comprehensive Benchmark for Evaluating Speech-Based Role-Playing Agents [25.2769510663867]
我々は、音声ベースのRPCAsの評価に特化して設計された最初の総合ベンチマークであるVoxRoleを紹介する。
ベンチマークは13335のマルチターンダイアログで構成され、261本の映画に1228のユニークなキャラクターから65.6時間のスピーチがある。
論文 参考訳(メタデータ) (2025-09-04T07:03:46Z) - AHELM: A Holistic Evaluation of Audio-Language Models [78.20477815156484]
マルチモーダルオーディオ言語モデル(ALM)は、インターリーブされた音声とテキストを入力および出力テキストとして取り込む。
AHELMは、PARADEとCoRe-Benchと呼ばれる2つの新しい合成オーディオテキストデータセットを含む、さまざまなデータセットを集約するベンチマークである。
また、モデル間の等価比較を確保するために、プロンプト、推論パラメータ、評価指標を標準化する。
論文 参考訳(メタデータ) (2025-08-29T07:40:39Z) - SpeechR: A Benchmark for Speech Reasoning in Large Audio-Language Models [60.72029578488467]
SpeechRは、大規模な音声言語モデルにおける音声に対する推論を評価するための統一的なベンチマークである。
事実検索、手続き推論、規範的判断の3つの重要な側面に沿ったモデルを評価する。
11個の最先端のLALMの評価は、高い転写精度が強い推論能力に変換されないことを示している。
論文 参考訳(メタデータ) (2025-08-04T03:28:04Z) - SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [72.79816494079833]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。