Fugu-MT 論文翻訳(概要): Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement

論文の概要: Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement

arxiv url: http://arxiv.org/abs/2402.10618v1
Date: Fri, 16 Feb 2024 12:12:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-19 16:42:23.237092
Title: Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement
Title（参考訳）: アグレッシブクエリによるロールプレイングシステムの拡張:評価と改善
Authors: Yihong Tang, Jiao Ou, Che Liu, Fuzheng Zhang, Di Zhang, Kun Gai
Abstract要約: 大言語モデル(LLM)は、特にロールプレイングシステム(RPS)分野において、対話生成を新しい領域に推進している。既存のLLMベースのRSSは、境界シナリオで複雑なクエリと閉じ込められたクエリを扱う場合、役割と整合するのに依然として苦労している。本研究は,MORTISE (Modular Orchestrated Trap-setting Interaction SystEm) を設計し,ロールプレイングLLMの性能向上を図る。
参考スコア（独自算出の注目度）: 18.633958855595232
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The advent of Large Language Models (LLMs) has propelled dialogue generation into new realms, particularly in the field of role-playing systems (RPSs). While enhanced with ordinary role-relevant training dialogues, existing LLM-based RPSs still struggle to align with roles when handling intricate and trapped queries in boundary scenarios. In this paper, we design the Modular ORchestrated Trap-setting Interaction SystEm (MORTISE) to benchmark and improve the role-playing LLMs' performance. MORTISE can produce highly role-relevant aggressive queries through the collaborative effort of multiple LLM-based modules, and formulate corresponding responses to create an adversarial training dataset via a consistent response generator. We select 190 Chinese and English roles to construct aggressive queries to benchmark existing role-playing LLMs. Through comprehensive evaluation, we find that existing models exhibit a general deficiency in role alignment capabilities. We further select 180 of the roles to collect an adversarial training dataset (named RoleAD) and retain the other 10 roles for testing. Experiments on models improved by RoleAD indicate that our adversarial dataset ameliorates this deficiency, with the improvements demonstrating a degree of generalizability in ordinary scenarios.
Abstract（参考訳）: LLM(Large Language Models)の出現は、特にロールプレイングシステム(RPS)分野において、対話生成を新たな領域へと押し上げている。通常のロール関連トレーニングダイアログによって強化されているが、既存のLLMベースのRSSは、境界シナリオにおける複雑なクエリと閉じ込められたクエリを扱う際に、ロールと整合するのに苦労している。本稿では,Modular Orchestrated Trap-setting Interaction SystEm(MORTISE)を設計し,ロールプレイングLLMの性能をベンチマークし改善する。 MORTISEは、複数のLCMベースのモジュールの協調作業を通じて、非常にロール関連性の高いアグレッシブクエリを生成し、対応するレスポンスを定式化し、一貫した応答生成器を介して敵のトレーニングデータセットを作成する。既存のロールプレイングllmをベンチマークするために,攻撃的クエリを構築するために,中国語と英語のロールを190個選択する。包括的評価により,既存のモデルでは役割アライメント能力が欠如していることがわかった。さらに,敵のトレーニングデータセット(rolead)を収集するための180のロールを選択し,他の10のロールをテスト用に保持する。 RoleADにより改善されたモデルに対する実験は、我々の敵対的データセットがこの欠陥を改善することを示し、通常のシナリオにおける一般化可能性の度合いを示す。

関連論文リスト

Single LLM, Multiple Roles: A Unified Retrieval-Augmented Generation Framework Using Role-Specific Token Optimization [64.33914369424494]
RoleRAGは、ロール固有のトークン最適化を通じて効率的なマルチタスク処理を実現する統一的なRAGフレームワークである。 RoleRAGは6つのモジュールから構成され、それぞれがRAGプロセス内で特定のサブタスクを処理する。クエリの分解を表すクエリグラフを導入し、分解状態に応じて動的に解決する。
論文参考訳（メタデータ） (2025-05-21T12:25:12Z)
Enhancing Persona Consistency for LLMs' Role-Playing using Persona-Aware Contrastive Learning [7.836439251883518]
モデルロールプレイング行動を調整するために,textbfunderlinePersona-Aware textbfunderlineContrastive textbfunderlineLearning (PCL) という新しいフレームワークを提案する。自動評価法と人手による評価では,PCLはバニラLLMよりも有意に優れていた。
論文参考訳（メタデータ） (2025-03-22T06:12:34Z)
Scaling Autonomous Agents via Automatic Reward Modeling And Planning [52.39395405893965]
大規模言語モデル(LLM)は、様々なタスクにまたがる顕著な機能を示している。しかし、彼らは多段階の意思決定と環境フィードバックを必要とする問題に苦戦している。人間のアノテーションを使わずに環境から報酬モデルを自動的に学習できるフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-17T18:49:25Z)
RoleMRC: A Fine-Grained Composite Benchmark for Role-Playing and Instruction-Following [31.80357046048002]
ロールプレイングは、大規模言語モデルにとって、多様な指示に従うことが重要である。既存のロールプレイングデータセットは、主にロールスタイルと知識境界の制御に寄与する。本稿では,RoleMRCという詳細なロールプレイングと命令フォローのベンチマークを紹介する。
論文参考訳（メタデータ） (2025-02-17T03:08:37Z)
CoSER: Coordinating LLM-Based Persona Simulation of Established Roles [62.886267684392635]
CoSERデータセットは771冊の有名な書籍から17,966文字をカバーしている。我々は,LLaMA-3.1 モデル上に構築された高度なオープンロールプレイング LLM である CoSER 8B と CoSER 70B を開発した。
論文参考訳（メタデータ） (2025-02-13T08:55:24Z)
Benchmarking Bias in Large Language Models during Role-Playing [21.28427555283642]
ロールプレイングにおいて,Large Language Models (LLMs) のバイアスを明らかにするために設計されたフェアネステストフレームワークであるBiasLensを紹介した。提案手法では,11の属性からなる包括的属性からなる550個のソーシャルロールをLCMを用いて生成し,33,000個のロール固有の質問を生成する。生成された質問をベンチマークとして、OpenAI、Mistral AI、Meta、Alibaba、DeepSeekがリリースした6つの高度なLCMの広範な評価を行う。我々のベンチマークでは、LLM全体で72,716の偏りが見られ、個々のモデルは7,754から16,963の偏りが生じる。
論文参考訳（メタデータ） (2024-11-01T13:47:00Z)
ERABAL: Enhancing Role-Playing Agents through Boundary-Aware Learning [17.5855800570993]
ヒューマン・コンピュータ・インタラクション(HCI)分野におけるロールプレイング大幅な進歩にもかかわらず、ロールプレイングエージェント(RPLA)は、会話間のロール一貫性を維持するのに依然として苦労している。境界認識学習によるロールプレイング能力向上を目的としたフレームワークであるERABALを提案する。
論文参考訳（メタデータ） (2024-09-23T05:12:13Z)
RNR: Teaching Large Language Models to Follow Roles and Rules [153.6596303205894]
既存のIFT命令から多様な役割やルールを生成する自動データ生成パイプラインであるモデルを提案する。このデータは、複雑なシステムプロンプトに従うモデルをトレーニングするために使用することができる。我々のフレームワークは、大規模言語モデルにおける役割と規則に従う能力を大幅に改善します。
論文参考訳（メタデータ） (2024-09-10T06:07:32Z)
Self-Prompt Tuning: Enable Autonomous Role-Playing in LLMs [12.615896145500393]
自己プロンプトチューニングされたLLMは、任意の質問に対して専門家の役割プロンプトを自動的に生成することができる。我々は、広く使われているNLPベンチマークとオープンエンド質問テストに基づいて、自己プロンプト調整LPMを広範囲に評価した。
論文参考訳（メタデータ） (2024-07-12T05:26:24Z)
Can Long-Context Language Models Subsume Retrieval, RAG, SQL, and More? [54.667202878390526]
長文言語モデル(LCLM)は、従来、検索システムやデータベースといった外部ツールに依存していたタスクへのアプローチに革命をもたらす可能性がある。実世界のタスクのベンチマークであるLOFTを導入し、文脈内検索と推論においてLCLMの性能を評価するために設計された数百万のトークンを出力する。以上の結果からLCLMは,これらのタスクを明示的に訓練したことがないにも関わらず,最先端の検索システムやRAGシステムと競合する驚くべき能力を示した。
論文参考訳（メタデータ） (2024-06-19T00:28:58Z)
Peer Review as A Multi-Turn and Long-Context Dialogue with Role-Based Interactions [62.0123588983514]
大規模言語モデル(LLM)は様々な分野にまたがる幅広い応用を実証してきた。我々は、ピアレビュープロセスを多ターン長文対話として再構築し、著者、レビュアー、意思決定者に対して異なる役割を担っている。複数の情報源から収集された92,017件のレビューを含む26,841件の論文を含む包括的データセットを構築した。
論文参考訳（メタデータ） (2024-06-09T08:24:17Z)
From Words to Actions: Unveiling the Theoretical Underpinnings of LLM-Driven Autonomous Systems [59.40480894948944]
大規模言語モデル (LLM) は、物理世界の意思決定問題を解くことができる。このモデルの下で、LLM Plannerは、プロンプトを介して言語ベースのサブゴールを反復的に生成することにより、部分的に観測可能なマルコフ決定プロセス(POMDP)をナビゲートする。我々は,事前学習したLLMプランナーが,文脈内学習を通じてベイズ的集計模倣学習(BAIL)を効果的に行うことを証明した。
論文参考訳（メタデータ） (2024-05-30T09:42:54Z)
Large Language Models are Superpositions of All Characters: Attaining Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文参考訳（メタデータ） (2024-01-23T03:56:22Z)
RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models [107.00832724504752]
大規模言語モデル(LLM)におけるロールプレイング能力をベンチマークし、評価し、拡張するフレームワークであるRoleLLMを紹介する。 Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。
論文参考訳（メタデータ） (2023-10-01T17:52:59Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。