論文の概要: Enhancing Role-playing Systems through Aggressive Queries: Evaluation
and Improvement
- arxiv url: http://arxiv.org/abs/2402.10618v1
- Date: Fri, 16 Feb 2024 12:12:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-19 16:42:23.237092
- Title: Enhancing Role-playing Systems through Aggressive Queries: Evaluation
and Improvement
- Title(参考訳): アグレッシブクエリによるロールプレイングシステムの拡張:評価と改善
- Authors: Yihong Tang, Jiao Ou, Che Liu, Fuzheng Zhang, Di Zhang, Kun Gai
- Abstract要約: 大言語モデル(LLM)は、特にロールプレイングシステム(RPS)分野において、対話生成を新しい領域に推進している。
既存のLLMベースのRSSは、境界シナリオで複雑なクエリと閉じ込められたクエリを扱う場合、役割と整合するのに依然として苦労している。
本研究は,MORTISE (Modular Orchestrated Trap-setting Interaction SystEm) を設計し,ロールプレイングLLMの性能向上を図る。
- 参考スコア(独自算出の注目度): 18.633958855595232
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The advent of Large Language Models (LLMs) has propelled dialogue generation
into new realms, particularly in the field of role-playing systems (RPSs).
While enhanced with ordinary role-relevant training dialogues, existing
LLM-based RPSs still struggle to align with roles when handling intricate and
trapped queries in boundary scenarios. In this paper, we design the Modular
ORchestrated Trap-setting Interaction SystEm (MORTISE) to benchmark and improve
the role-playing LLMs' performance. MORTISE can produce highly role-relevant
aggressive queries through the collaborative effort of multiple LLM-based
modules, and formulate corresponding responses to create an adversarial
training dataset via a consistent response generator. We select 190 Chinese and
English roles to construct aggressive queries to benchmark existing
role-playing LLMs. Through comprehensive evaluation, we find that existing
models exhibit a general deficiency in role alignment capabilities. We further
select 180 of the roles to collect an adversarial training dataset (named
RoleAD) and retain the other 10 roles for testing. Experiments on models
improved by RoleAD indicate that our adversarial dataset ameliorates this
deficiency, with the improvements demonstrating a degree of generalizability in
ordinary scenarios.
- Abstract(参考訳): LLM(Large Language Models)の出現は、特にロールプレイングシステム(RPS)分野において、対話生成を新たな領域へと押し上げている。
通常のロール関連トレーニングダイアログによって強化されているが、既存のLLMベースのRSSは、境界シナリオにおける複雑なクエリと閉じ込められたクエリを扱う際に、ロールと整合するのに苦労している。
本稿では,Modular Orchestrated Trap-setting Interaction SystEm(MORTISE)を設計し,ロールプレイングLLMの性能をベンチマークし改善する。
MORTISEは、複数のLCMベースのモジュールの協調作業を通じて、非常にロール関連性の高いアグレッシブクエリを生成し、対応するレスポンスを定式化し、一貫した応答生成器を介して敵のトレーニングデータセットを作成する。
既存のロールプレイングllmをベンチマークするために,攻撃的クエリを構築するために,中国語と英語のロールを190個選択する。
包括的評価により,既存のモデルでは役割アライメント能力が欠如していることがわかった。
さらに,敵のトレーニングデータセット(rolead)を収集するための180のロールを選択し,他の10のロールをテスト用に保持する。
RoleADにより改善されたモデルに対する実験は、我々の敵対的データセットがこの欠陥を改善することを示し、通常のシナリオにおける一般化可能性の度合いを示す。
関連論文リスト
- Knowledgeable Agents by Offline Reinforcement Learning from Large Language Model Rollouts [10.929547354171723]
本稿では,言語モデルロールアウト(KALM)の知識エージェントを紹介する。
大規模言語モデル(LLM)から、オフラインの強化学習手法によってエージェントが容易に学習できる想像上のロールアウトの形で知識を抽出する。
未確認の目標を持つタスクの実行において46%の成功率を達成し、ベースラインメソッドによって達成された26%の成功率を大幅に上回る。
論文 参考訳(メタデータ) (2024-04-14T13:19:40Z) - LLM In-Context Recall is Prompt Dependent [0.0]
これを行うモデルの能力は、実世界のアプリケーションにおける実用性と信頼性に大きな影響を及ぼす。
本研究は, LLMのリコール能力がプロンプトの内容に影響を及ぼすだけでなく, トレーニングデータのバイアスによって損なわれる可能性があることを示す。
論文 参考訳(メタデータ) (2024-04-13T01:13:59Z) - Towards a Robust Retrieval-Based Summarization System [11.747998334533776]
本稿では,大規模言語モデル(LLM)のRAGに基づく要約タスクに対する堅牢性について検討する。
最初のコントリビューションはLogicSummで、現実的なシナリオを取り入れた革新的な評価フレームワークです。
LogiSummによって特定された制限に基づいて、トレーニング対話を作成し、堅牢性を高めるためのモデルを微調整する包括的システム SummRAG を開発した。
論文 参考訳(メタデータ) (2024-03-29T00:14:46Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models [107.00832724504752]
大規模言語モデル(LLM)におけるロールプレイング能力をベンチマークし、評価し、拡張するフレームワークであるRoleLLMを紹介する。
Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。
論文 参考訳(メタデータ) (2023-10-01T17:52:59Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - AgentBench: Evaluating LLMs as Agents [88.45506148281379]
大規模言語モデル(LLM)は、従来のNLPタスクを超えた現実的な実用的ミッションをターゲットとして、ますます賢く自律的になってきています。
我々は,現在8つの異なる環境からなるベンチマークであるAgentBenchを紹介し,LLM-as-Agentの推論と意思決定能力を評価する。
論文 参考訳(メタデータ) (2023-08-07T16:08:11Z) - RODE: Learning Roles to Decompose Multi-Agent Tasks [69.56458960841165]
ロールベースの学習は、ロールを使って複雑なタスクを分解することで、スケーラブルなマルチエージェント学習を実現するという約束を持っている。
本稿では,まず,環境および他のエージェントに対する影響に応じて協調行動空間をクラスタリングすることで,制約された役割行動空間に分解することを提案する。
これらの進歩により、我々の手法は、挑戦的なStarCraft IIマイクロマネジメントベンチマークを構成する14シナリオのうち10シナリオにおいて、現在の最先端のMARLアルゴリズムよりも優れています。
論文 参考訳(メタデータ) (2020-10-04T09:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。