論文の概要: RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing
- arxiv url: http://arxiv.org/abs/2507.20352v1
- Date: Sun, 27 Jul 2025 16:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.464402
- Title: RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing
- Title(参考訳): RMTBench:マルチターンユーザ中心ロールプレイングによるLLMのベンチマーク
- Authors: Hao Xiang, Tianyi Tang, Yang Su, Bowen Yu, An Yang, Fei Huang, Yichang Zhang, Yaojie Lu, Hongyu Lin, Xianpei Han, Jingren Zhou, Junyang Lin, Le Sun,
- Abstract要約: RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
- 参考スコア(独自算出の注目度): 111.06936588273868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have shown outstanding potential for role-playing applications. Evaluating these capabilities is becoming crucial yet remains challenging. Existing benchmarks mostly adopt a \textbf{character-centric} approach, simplify user-character interactions to isolated Q&A tasks, and fail to reflect real-world applications. To address this limitation, we introduce RMTBench, a comprehensive \textbf{user-centric} bilingual role-playing benchmark featuring 80 diverse characters and over 8,000 dialogue rounds. RMTBench includes custom characters with detailed backgrounds and abstract characters defined by simple traits, enabling evaluation across various user scenarios. Our benchmark constructs dialogues based on explicit user motivations rather than character descriptions, ensuring alignment with practical user applications. Furthermore, we construct an authentic multi-turn dialogue simulation mechanism. With carefully selected evaluation dimensions and LLM-based scoring, this mechanism captures the complex intention of conversations between the user and the character. By shifting focus from character background to user intention fulfillment, RMTBench bridges the gap between academic evaluation and practical deployment requirements, offering a more effective framework for assessing role-playing capabilities in LLMs. All code and datasets will be released soon.
- Abstract(参考訳): LLM(Large Language Models)の最近の進歩は、ロールプレイングアプリケーションに顕著な可能性を示している。
これらの能力の評価は重要になってきていますが、依然として難しいです。
既存のベンチマークでは、主に \textbf{character-centric} アプローチを採用し、Q&Aタスクへのユーザ-文字インタラクションを簡素化し、現実世界のアプリケーションを反映できない。
この制限に対処するため、RTTBenchは、80の多彩な文字と8000以上の対話ラウンドを特徴とする、包括的 \textbf{user-centric} バイリンガルロールプレイングベンチマークである。
RMTBenchには、複雑な背景と単純な特徴によって定義された抽象的な文字を持つカスタム文字が含まれており、さまざまなユーザシナリオで評価が可能である。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
さらに,本研究では,マルチターン対話シミュレーション機構を構築した。
慎重に選択された評価次元とLLMに基づくスコアリングにより、このメカニズムはユーザとキャラクタ間の会話の複雑な意図をキャプチャする。
RMTBenchは、キャラクターのバックグラウンドからユーザ意図のフルフィルメントに焦点を移すことによって、学術的な評価と実践的なデプロイメント要件のギャップを埋め、LLMにおけるロールプレイング能力を評価するためのより効果的なフレームワークを提供する。
すべてのコードとデータセットが間もなくリリースされる。
関連論文リスト
- Test-Time-Matching: Decouple Personality, Memory, and Linguistic Style in LLM-based Role-Playing Language Agent [18.67432557362308]
TTM(Test-Time-Matching)は、テスト時間スケーリングとコンテキストエンジニアリングによる、トレーニング不要なロールプレイングフレームワークである。
我々のフレームワークは、これらの機能を制御されたロールプレイングに利用する、構造化された3段階生成パイプラインを含んでいる。
高忠実なロールプレイングのパフォーマンスを実現し、多様な言語スタイルのシームレスな組み合わせや、個性や記憶のバリエーションも実現している。
論文 参考訳(メタデータ) (2025-07-22T17:47:44Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - CoSER: Coordinating LLM-Based Persona Simulation of Established Roles [62.886267684392635]
CoSERデータセットは771冊の有名な書籍から17,966文字をカバーしている。
我々は,LLaMA-3.1 モデル上に構築された高度なオープンロールプレイング LLM である CoSER 8B と CoSER 70B を開発した。
論文 参考訳(メタデータ) (2025-02-13T08:55:24Z) - Role-playing Prompt Framework: Generation and Evaluation [3.2845546753303867]
大規模言語モデル(LLM)は、自然言語生成、ユーザ命令の理解、人間に似た言語使用のエミュレートにおいて、優れた習熟度を示す。
本稿では、ロールプレイング対話データセットの生成にGPTの機能を活用するために設計されたプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-02T06:09:56Z) - DuetSim: Building User Simulator with Dual Large Language Models for Task-Oriented Dialogues [7.765092134290888]
本稿では,大規模言語モデルを活用することで,タスク指向対話の複雑な要求に対処する新しいフレームワークであるDuetSimを紹介する。
DuetSim は2つの LLM をタンデムで採用することで従来の手法とは異なっている。
提案手法の有効性を,MultiWOZデータセットを用いた広範囲な実験により検証し,応答品質と正しさの向上を強調した。
論文 参考訳(メタデータ) (2024-05-16T06:24:31Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。