論文の概要: VoxRole: A Comprehensive Benchmark for Evaluating Speech-Based Role-Playing Agents
- arxiv url: http://arxiv.org/abs/2509.03940v1
- Date: Thu, 04 Sep 2025 07:03:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-05 20:21:10.080807
- Title: VoxRole: A Comprehensive Benchmark for Evaluating Speech-Based Role-Playing Agents
- Title(参考訳): VoxRole: 音声に基づくロールプレイングエージェント評価のための総合ベンチマーク
- Authors: Weihao Wu, Liang Cao, Xinyu Wu, Zhiwei Lin, Rui Niu, Jingbei Li, Zhiyong Wu,
- Abstract要約: 我々は、音声ベースのRPCAsの評価に特化して設計された最初の総合ベンチマークであるVoxRoleを紹介する。
ベンチマークは13335のマルチターンダイアログで構成され、261本の映画に1228のユニークなキャラクターから65.6時間のスピーチがある。
- 参考スコア(独自算出の注目度): 25.2769510663867
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent significant advancements in Large Language Models (LLMs) have greatly propelled the development of Role-Playing Conversational Agents (RPCAs). These systems aim to create immersive user experiences through consistent persona adoption. However, current RPCA research faces dual limitations. First, existing work predominantly focuses on the textual modality, entirely overlooking critical paralinguistic features including intonation, prosody, and rhythm in speech, which are essential for conveying character emotions and shaping vivid identities. Second, the speech-based role-playing domain suffers from a long-standing lack of standardized evaluation benchmarks. Most current spoken dialogue datasets target only fundamental capability assessments, featuring thinly sketched or ill-defined character profiles. Consequently, they fail to effectively quantify model performance on core competencies like long-term persona consistency. To address this critical gap, we introduce VoxRole, the first comprehensive benchmark specifically designed for the evaluation of speech-based RPCAs. The benchmark comprises 13335 multi-turn dialogues, totaling 65.6 hours of speech from 1228 unique characters across 261 movies. To construct this resource, we propose a novel two-stage automated pipeline that first aligns movie audio with scripts and subsequently employs an LLM to systematically build multi-dimensional profiles for each character. Leveraging VoxRole, we conduct a multi-dimensional evaluation of contemporary spoken dialogue models, revealing crucial insights into their respective strengths and limitations in maintaining persona consistency.
- Abstract(参考訳): 近年のLarge Language Models (LLMs) の進歩は、ロールプレイング会話エージェント (RPCAs) の開発を大いに推進している。
これらのシステムは、一貫したペルソナの採用を通じて没入的なユーザエクスペリエンスを実現することを目的としている。
しかし、現在のRPCA研究は2つの制限に直面している。
第一に、既存の研究は文章のモダリティに重点を置いており、感情を伝達したり、鮮やかなアイデンティティを形作るのに欠かせない、イントネーション、韻律、リズムといった重要なパラ言語的特徴を完全に見落としている。
第二に、音声ベースのロールプレイングドメインは、標準評価ベンチマークの長年の欠如に悩まされている。
現在の音声対話データセットのほとんどは、細いスケッチや未定義の文字プロファイルを特徴とする基本的な能力評価のみを対象としている。
その結果、長期的なペルソナ一貫性のようなコア能力のモデルパフォーマンスを効果的に定量化できない。
この重要なギャップに対処するために、音声ベースのRPCAsの評価に特化して設計された最初の総合ベンチマークであるVoxRoleを紹介する。
ベンチマークは13335のマルチターンダイアログで構成され、261本の映画に1228のユニークなキャラクターから65.6時間のスピーチがある。
このリソースを構築するために,まず映画音声をスクリプトと整列させる2段階自動パイプラインを提案し,次にLLMを用いて各文字の多次元プロファイルを体系的に構築する。
VoxRoleを活用することで、同時代の音声対話モデルの多次元的評価を行い、ペルソナの一貫性を維持する上で、それぞれの強みと限界に対する重要な洞察を明らかにする。
関連論文リスト
- SpeechRole: A Large-Scale Dataset and Benchmark for Evaluating Speech Role-Playing Agents [52.29009595100625]
ロールプレイングエージェントは、パーソナライズされた相互作用と感情共鳴を達成するための有望なパラダイムとして登場した。
既存の研究は主にテキストのモダリティに焦点を当て、現実的な対話的なシナリオにおける音声の重要な次元を無視している。
我々は,98の多様な役割と112kの音声ベースの1ターン・マルチターン会話からなる大規模かつ高品質なデータセットであるSpeechRole-Dataを構築した。
論文 参考訳(メタデータ) (2025-08-04T03:18:36Z) - RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing [111.06936588273868]
RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
論文 参考訳(メタデータ) (2025-07-27T16:49:47Z) - Test-Time-Matching: Decouple Personality, Memory, and Linguistic Style in LLM-based Role-Playing Language Agent [18.67432557362308]
TTM(Test-Time-Matching)は、テスト時間スケーリングとコンテキストエンジニアリングによる、トレーニング不要なロールプレイングフレームワークである。
我々のフレームワークは、これらの機能を制御されたロールプレイングに利用する、構造化された3段階生成パイプラインを含んでいる。
高忠実なロールプレイングのパフォーマンスを実現し、多様な言語スタイルのシームレスな組み合わせや、個性や記憶のバリエーションも実現している。
論文 参考訳(メタデータ) (2025-07-22T17:47:44Z) - AudioJudge: Understanding What Works in Large Audio Model Based Speech Evaluation [55.607230723223346]
本研究は,Large Audio Model (LAM) をAudioJudgeの裁判官として体系的に研究し,両課題に対処する統一評価フレームワークを提供することができるかどうかを検討する。
本稿では、発音、発話速度、話者識別、音声品質、自動ベンチマークのためのシステムレベルの人間の嗜好シミュレーションなど、音声特徴検出タスクにまたがるAudioJudgeについて検討する。
本稿では,多視点アンサンブルAudioJudgeを導入し,音声評価を語彙内容,音声品質,パラ言語特徴の専門判断者に分解し,人間の嗜好と最大0.91のスピアマン相関を達成させる手法を提案する。
論文 参考訳(メタデータ) (2025-07-17T00:39:18Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。