論文の概要: RoleMRC: A Fine-Grained Composite Benchmark for Role-Playing and Instruction-Following
- arxiv url: http://arxiv.org/abs/2502.11387v1
- Date: Mon, 17 Feb 2025 03:08:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-18 14:12:41.998567
- Title: RoleMRC: A Fine-Grained Composite Benchmark for Role-Playing and Instruction-Following
- Title(参考訳): RoleMRC:ロールプレイングとインストラクションフォローのための微粒複合ベンチマーク
- Authors: Junru Lu, Jiazheng Li, Guodong Shen, Lin Gui, Siyu An, Yulan He, Di Yin, Xing Sun,
- Abstract要約: ロールプレイングは、大規模言語モデルにとって、多様な指示に従うことが重要である。
既存のロールプレイングデータセットは、主にロールスタイルと知識境界の制御に寄与する。
本稿では,RoleMRCという詳細なロールプレイングと命令フォローのベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 31.80357046048002
- License:
- Abstract: Role-playing is important for Large Language Models (LLMs) to follow diverse instructions while maintaining role identity and the role's pre-defined ability limits. Existing role-playing datasets mostly contribute to controlling role style and knowledge boundaries, but overlook role-playing in instruction-following scenarios. We introduce a fine-grained role-playing and instruction-following composite benchmark, named RoleMRC, including: (1) Multi-turn dialogues between ideal roles and humans, including free chats or discussions upon given passages; (2) Role-playing machine reading comprehension, involving response, refusal, and attempts according to passage answerability and role ability; (3) More complex scenarios with nested, multi-turn and prioritized instructions. The final RoleMRC features a 10.2k role profile meta-pool, 37.9k well-synthesized role-playing instructions, and 1.4k testing samples. We develop a pipeline to quantitatively evaluate the fine-grained role-playing and instruction-following capabilities of several mainstream LLMs, as well as models that are fine-tuned on our data. Moreover, cross-evaluation on external role-playing datasets confirms that models fine-tuned on RoleMRC enhances instruction-following without compromising general role-playing and reasoning capabilities. We also probe the neural-level activation maps of different capabilities over post-tuned LLMs. Access to our RoleMRC, RoleMRC-mix and Codes: https://github.com/LuJunru/RoleMRC.
- Abstract(参考訳): ロールプレイングは、ロールアイデンティティとロールの事前定義された能力制限を維持しながら、さまざまな命令に従うことが、LLM(Large Language Models)にとって重要である。
既存のロールプレイングデータセットは、主にロールスタイルとナレッジ境界の制御に寄与するが、命令フォローのシナリオではロールプレイングを見落としている。
本研究では,(1) 理想的役割と人間とのマルチターン対話,(2) 応答,拒絶,試行などによるロールプレイングマシンの理解,(3) ネスト,マルチターン,優先度付けされた指示による複雑なシナリオの改善など,より詳細なロールプレイングと命令フォローの複合ベンチマークであるRoleMRCを紹介する。
最後のRoleMRCは10.2kロールプロファイルメタプール、37.9kロールプレイング命令、1.4kテストサンプルを備える。
我々は、いくつかの主要なLCMの詳細なロールプレイングと命令フォロー機能と、データに基づいて微調整されたモデルとを定量的に評価するパイプラインを開発した。
さらに、外部ロールプレイングデータセットの相互評価により、RoleMRCで微調整されたモデルは、一般的なロールプレイングや推論能力を損なうことなく、命令フォローを強化することが確認される。
また、学習後LLMに対して異なる能力の神経レベル活性化マップを探索する。
RoleMRC、RoleMRC-mix、コードへのアクセス:https://github.com/LuJunru/RoleMRC。
関連論文リスト
- ERABAL: Enhancing Role-Playing Agents through Boundary-Aware Learning [17.5855800570993]
ヒューマン・コンピュータ・インタラクション(HCI)分野におけるロールプレイング
大幅な進歩にもかかわらず、ロールプレイングエージェント(RPLA)は、会話間のロール一貫性を維持するのに依然として苦労している。
境界認識学習によるロールプレイング能力向上を目的としたフレームワークであるERABALを提案する。
論文 参考訳(メタデータ) (2024-09-23T05:12:13Z) - Thinking Before Speaking: A Role-playing Model with Mindset [0.6428333375712125]
大規模言語モデル(LLM)は人間の振る舞いをシミュレートする能力を持っている。
これらのモデルは、想定される役割が持たないという知識に直面すると、パフォーマンスが悪くなります。
本稿では,TBS(Thinking Before Talk)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-14T02:41:48Z) - RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。
このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。
我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文 参考訳(メタデータ) (2024-09-10T06:07:32Z) - Capturing Minds, Not Just Words: Enhancing Role-Playing Language Models with Personality-Indicative Data [58.92110996840019]
本稿では、パーソナリティを指標としたデータを用いて、ロールプレイング言語モデル(RPLM)を強化することを提案する。
具体的には、心理学的尺度からの質問を活用し、高度なRPAを蒸留し、文字の心を把握した対話を生成する。
実験により,本データセットを用いてトレーニングしたRPLMは,一般人格関連評価と人格関連評価の両面において,高度なロールプレイング能力を示した。
論文 参考訳(メタデータ) (2024-06-27T06:24:00Z) - Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement [17.5855800570993]
大言語モデル(LLM)は、特にロールプレイングシステム(RPS)分野において、対話生成を新しい領域に推進している。
既存のLLMベースのRSSは、境界シナリオで複雑なクエリと閉じ込められたクエリを扱う場合、役割と整合するのに依然として苦労している。
本研究は,MORTISE (Modular Orchestrated Trap-setting Interaction SystEm) を設計し,ロールプレイングLLMの性能向上を図る。
論文 参考訳(メタデータ) (2024-02-16T12:12:05Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models [107.00832724504752]
大規模言語モデル(LLM)におけるロールプレイング能力をベンチマークし、評価し、拡張するフレームワークであるRoleLLMを紹介する。
Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。
論文 参考訳(メタデータ) (2023-10-01T17:52:59Z) - Other Roles Matter! Enhancing Role-Oriented Dialogue Summarization via
Role Interactions [50.84439853121438]
本稿では,役割指向対話要約のための新しい役割相互作用強化手法を提案する。
クロスアテンションとデコーダのセルフアテンションインタラクションを採用し、他のロールのクリティカル情報を対話的に取得する。
提案手法は,2つの公開ロール指向対話要約データセットにおいて,強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2022-05-26T06:58:02Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。