論文の概要: RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing
- arxiv url: http://arxiv.org/abs/2507.20352v1
- Date: Sun, 27 Jul 2025 16:49:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-29 16:23:57.464402
- Title: RMTBench: Benchmarking LLMs Through Multi-Turn User-Centric Role-Playing
- Title(参考訳): RMTBench:マルチターンユーザ中心ロールプレイングによるLLMのベンチマーク
- Authors: Hao Xiang, Tianyi Tang, Yang Su, Bowen Yu, An Yang, Fei Huang, Yichang Zhang, Yaojie Lu, Hongyu Lin, Xianpei Han, Jingren Zhou, Junyang Lin, Le Sun,
- Abstract要約: RMTBenchは、80の多様な文字と8000以上の対話ラウンドを特徴とする、総合的なテキストバプサー中心のバイリンガルロールプレイングベンチマークである。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
RMTBenchは、キャラクタバックグラウンドからユーザ意図のフルフィルメントにフォーカスを移すことで、学術的な評価と実践的なデプロイメント要件のギャップを埋める。
- 参考スコア(独自算出の注目度): 111.06936588273868
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in Large Language Models (LLMs) have shown outstanding potential for role-playing applications. Evaluating these capabilities is becoming crucial yet remains challenging. Existing benchmarks mostly adopt a \textbf{character-centric} approach, simplify user-character interactions to isolated Q&A tasks, and fail to reflect real-world applications. To address this limitation, we introduce RMTBench, a comprehensive \textbf{user-centric} bilingual role-playing benchmark featuring 80 diverse characters and over 8,000 dialogue rounds. RMTBench includes custom characters with detailed backgrounds and abstract characters defined by simple traits, enabling evaluation across various user scenarios. Our benchmark constructs dialogues based on explicit user motivations rather than character descriptions, ensuring alignment with practical user applications. Furthermore, we construct an authentic multi-turn dialogue simulation mechanism. With carefully selected evaluation dimensions and LLM-based scoring, this mechanism captures the complex intention of conversations between the user and the character. By shifting focus from character background to user intention fulfillment, RMTBench bridges the gap between academic evaluation and practical deployment requirements, offering a more effective framework for assessing role-playing capabilities in LLMs. All code and datasets will be released soon.
- Abstract(参考訳): LLM(Large Language Models)の最近の進歩は、ロールプレイングアプリケーションに顕著な可能性を示している。
これらの能力の評価は重要になってきていますが、依然として難しいです。
既存のベンチマークでは、主に \textbf{character-centric} アプローチを採用し、Q&Aタスクへのユーザ-文字インタラクションを簡素化し、現実世界のアプリケーションを反映できない。
この制限に対処するため、RTTBenchは、80の多彩な文字と8000以上の対話ラウンドを特徴とする、包括的 \textbf{user-centric} バイリンガルロールプレイングベンチマークである。
RMTBenchには、複雑な背景と単純な特徴によって定義された抽象的な文字を持つカスタム文字が含まれており、さまざまなユーザシナリオで評価が可能である。
本ベンチマークでは,文字記述よりも明示的なユーザモチベーションに基づく対話を構築し,実用的なユーザアプリケーションとの整合性を確保する。
さらに,本研究では,マルチターン対話シミュレーション機構を構築した。
慎重に選択された評価次元とLLMに基づくスコアリングにより、このメカニズムはユーザとキャラクタ間の会話の複雑な意図をキャプチャする。
RMTBenchは、キャラクターのバックグラウンドからユーザ意図のフルフィルメントに焦点を移すことによって、学術的な評価と実践的なデプロイメント要件のギャップを埋め、LLMにおけるロールプレイング能力を評価するためのより効果的なフレームワークを提供する。
すべてのコードとデータセットが間もなくリリースされる。
関連論文リスト
- Test-Time-Matching: Decouple Personality, Memory, and Linguistic Style in LLM-based Role-Playing Language Agent [18.67432557362308]
TTM(Test-Time-Matching)は、テスト時間スケーリングとコンテキストエンジニアリングによる、トレーニング不要なロールプレイングフレームワークである。
我々のフレームワークは、これらの機能を制御されたロールプレイングに利用する、構造化された3段階生成パイプラインを含んでいる。
高忠実なロールプレイングのパフォーマンスを実現し、多様な言語スタイルのシームレスな組み合わせや、個性や記憶のバリエーションも実現している。
論文 参考訳(メタデータ) (2025-07-22T17:47:44Z) - MARS-Bench: A Multi-turn Athletic Real-world Scenario Benchmark for Dialogue Evaluation [49.12071445991853]
大規模言語モデル(textbfLLMs)は現実世界の対話アプリケーションで広く採用されている。
MARS-Benchはプレイバイプレイのテキストコメンタリーから構築され、リアルな対話を特徴とする。
MARS-Bench の実験では、クローズドソース LLM がオープンソース代替よりも大幅に優れていることも明らかにされている。
論文 参考訳(メタデータ) (2025-05-27T10:28:04Z) - A Personalized Conversational Benchmark: Towards Simulating Personalized Conversations [112.81207927088117]
PersonaConvBenchは、大規模言語モデル(LLM)とのマルチターン会話におけるパーソナライズされた推論と生成を評価するためのベンチマークである。
我々は,複数の商用およびオープンソース LLM を統一的なプロンプト設定でベンチマークし,パーソナライズされた履歴を組み込むことで大幅な性能向上が得られることを観察した。
論文 参考訳(メタデータ) (2025-05-20T09:13:22Z) - Know You First and Be You Better: Modeling Human-Like User Simulators via Implicit Profiles [37.43150003866563]
我々は,人間と機械のインタラクションから暗黙のユーザプロファイルを推論し,パーソナライズされたリアルな対話をシミュレートする,インプリシットプロファイル付きユーザシミュレータ(USP)を紹介する。
USPは、同等の一貫性を維持しながら、信頼性と多様性の点で、強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2025-02-26T09:26:54Z) - CoSER: Coordinating LLM-Based Persona Simulation of Established Roles [62.886267684392635]
CoSERデータセットは771冊の有名な書籍から17,966文字をカバーしている。
我々は,LLaMA-3.1 モデル上に構築された高度なオープンロールプレイング LLM である CoSER 8B と CoSER 70B を開発した。
論文 参考訳(メタデータ) (2025-02-13T08:55:24Z) - CharacterBench: Benchmarking Character Customization of Large Language Models [80.29164862682063]
我々は,最大2言語生成ベンチマークである characterBench を提案し,3,956 文字を含む22,859 人の注釈付きサンプルを作成した。
我々は,各応答に現れる特定の次元によって評価される特徴量に基づいて,スパース次元と密度次元に分類される6つの側面の11次元を定義する。
また,コスト効率と安定した評価のためのキャラクタジャッジモデルも開発している。
論文 参考訳(メタデータ) (2024-12-16T15:55:34Z) - FB-Bench: A Fine-Grained Multi-Task Benchmark for Evaluating LLMs' Responsiveness to Human Feedback [33.532239489610056]
FB-Benchは、中国語の実際の使用シナリオ下での人間のフィードバックに対する大規模言語モデルの応答性を評価するために設計されたベンチマークである。
我々は,多種多様なLLMを広範囲に評価し,異なる相互作用シナリオにおける性能の顕著な変動を明らかにした。
我々の研究結果は、現在のモデルの強みと限界の両方を強調し、将来の研究に価値ある洞察と方向性を提供する。
論文 参考訳(メタデータ) (2024-10-12T07:40:01Z) - Role-playing Prompt Framework: Generation and Evaluation [3.2845546753303867]
大規模言語モデル(LLM)は、自然言語生成、ユーザ命令の理解、人間に似た言語使用のエミュレートにおいて、優れた習熟度を示す。
本稿では、ロールプレイング対話データセットの生成にGPTの機能を活用するために設計されたプロンプトベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-02T06:09:56Z) - DuetSim: Building User Simulator with Dual Large Language Models for Task-Oriented Dialogues [7.765092134290888]
本稿では,大規模言語モデルを活用することで,タスク指向対話の複雑な要求に対処する新しいフレームワークであるDuetSimを紹介する。
DuetSim は2つの LLM をタンデムで採用することで従来の手法とは異なっている。
提案手法の有効性を,MultiWOZデータセットを用いた広範囲な実験により検証し,応答品質と正しさの向上を強調した。
論文 参考訳(メタデータ) (2024-05-16T06:24:31Z) - Cue-CoT: Chain-of-thought Prompting for Responding to In-depth Dialogue
Questions with LLMs [59.74002011562726]
我々は、よりパーソナライズされ魅力的な応答を提供するために、新しい言語的キューに基づく思考の連鎖(textitCue-CoT)を提案する。
中国語と英語の6つのデータセットからなる詳細な対話質問を用いたベンチマークを構築した。
実験により,提案手法は,すべてのデータセットにおいて,テクステルパーフルネスとテクスチタアクセプタビリティの両方の観点から,標準的プロンプト法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-05-19T16:27:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。