論文の概要: Enhancing Persona Consistency for LLMs' Role-Playing using Persona-Aware Contrastive Learning
- arxiv url: http://arxiv.org/abs/2503.17662v2
- Date: Tue, 25 Mar 2025 14:43:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 10:43:59.675214
- Title: Enhancing Persona Consistency for LLMs' Role-Playing using Persona-Aware Contrastive Learning
- Title(参考訳): 対人学習を用いたLLMのロールプレイングにおけるペルソナ一貫性の強化
- Authors: Ke Ji, Yixin Lian, Linxu Li, Jingsheng Gao, Weiyuan Li, Bin Dai,
- Abstract要約: モデルロールプレイング行動を調整するために,textbfunderlinePersona-Aware textbfunderlineContrastive textbfunderlineLearning (PCL) という新しいフレームワークを提案する。
自動評価法と人手による評価では,PCLはバニラLLMよりも有意に優れていた。
- 参考スコア(独自算出の注目度): 7.836439251883518
- License:
- Abstract: In recent years, large language models (LLMs) have achieved breakthrough progress in many dialogue generation tasks. However, their lack of emotion and fine-grained role awareness limits the model's ability to provide personalized and diverse interactions further. Current methods face high costs in collecting high-quality annotated data for scenarios such as role-playing, and traditional human alignment methods are difficult to deploy due to the inherent diversity of model behavior in role-playing scenarios. Inspired by the alignment of models for safety behaviors through RLHF (Reinforcement Learning from Human Feedback), in this paper, we revisit model role-playing behavior from the perspective of persona alignment and propose a novel annotation-free framework named \textbf{\underline{P}}ersona-Aware \textbf{\underline{C}}ontrastive \textbf{\underline{L}}earning (PCL) to align LLMs' behavior during role-playing, enhancing the model's role consistency. Specifically, we first design a role chain method to encourage the model to self-question based on the role characteristics and dialogue context to adjust personality consistency. Then, we further enhance the model's role-playing strategy through iterative contrastive learning between the use of role characteristics and not. Experiments on both black-box and white-box LLMs show that LLMs equipped with PCL significantly outperform vanilla LLMs under automatic evaluation methods (CharEval \& GPT-4) and human expert evaluation.
- Abstract(参考訳): 近年,多くの対話生成タスクにおいて,大規模言語モデル (LLM) が飛躍的な進歩を遂げている。
しかし、彼らの感情の欠如ときめ細かい役割意識は、モデルがパーソナライズされ多様な相互作用を提供する能力を制限する。
現在の手法はロールプレイングのようなシナリオのための高品質なアノテートデータ収集において高いコストに直面しており、従来のヒューマンアライメント手法はロールプレイングシナリオにおけるモデル行動の固有の多様性のため、デプロイが困難である。
本稿では、RLHF(Reinforcement Learning from Human Feedback)による安全行動モデルアライメントに触発され、ペルソナアライメントの観点からモデルロールプレイング行動を再考し、新しいアノテーションのないフレームワークである「textbf{\underline{P}}ersona-Aware \textbf{\underline{C}}ontrastive \textbf{\underline{L}}earning (PCL)を提案し、ロールプレイング中のLLMの振る舞いを調整し、モデルの役割整合性を高める。
具体的には、まず、役割特性と対話コンテキストに基づいて、モデルに自己追求を促すロールチェーン手法を設計し、パーソナリティの整合性を調整する。
そこで本研究では,役割特性の活用による反復的コントラスト学習を通じて,モデルの役割プレイング戦略をさらに強化する。
ブラックボックスとホワイトボックスの両方の実験では、PCLを搭載したLLMは、自動評価法(CharEval \&GPT-4)およびヒトの専門家による評価において、バニラLLMよりも著しく優れていた。
関連論文リスト
- OpenCharacter: Training Customizable Role-Playing LLMs with Large-Scale Synthetic Personas [65.83634577897564]
本研究では,文字一般化機能を備えた大規模言語モデルを実現するための大規模データ合成手法について検討する。
まず、ペルソナハブのペルソナを用いて、大規模な文字プロファイルを合成することから始める。
次に、応答書き換えと応答生成という2つの戦略を検討し、文字対応の命令応答を生成する。
論文 参考訳(メタデータ) (2025-01-26T07:07:01Z) - ERABAL: Enhancing Role-Playing Agents through Boundary-Aware Learning [17.5855800570993]
ヒューマン・コンピュータ・インタラクション(HCI)分野におけるロールプレイング
大幅な進歩にもかかわらず、ロールプレイングエージェント(RPLA)は、会話間のロール一貫性を維持するのに依然として苦労している。
境界認識学習によるロールプレイング能力向上を目的としたフレームワークであるERABALを提案する。
論文 参考訳(メタデータ) (2024-09-23T05:12:13Z) - Thinking Before Speaking: A Role-playing Model with Mindset [0.6428333375712125]
大規模言語モデル(LLM)は人間の振る舞いをシミュレートする能力を持っている。
これらのモデルは、想定される役割が持たないという知識に直面すると、パフォーマンスが悪くなります。
本稿では,TBS(Thinking Before Talk)モデルを提案する。
論文 参考訳(メタデータ) (2024-09-14T02:41:48Z) - Language Models Show Stable Value Orientations Across Diverse Role-Plays [4.906478894661688]
多様なペルソナを取り入れつつも,大きな言語モデル(LLM)が一貫した価値指向を示すことを示す。
ランダムで多様なペルソナを持つLLMを促進させるロールプレイ・アット・スケール手法を提案する。
このアプローチは、様々なロールプレイシナリオにまたがるLLM応答における一貫したパターンを明らかにし、固有の傾向を深くエンコードしていることを示す。
論文 参考訳(メタデータ) (2024-08-16T23:24:10Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
社会実践, 一貫性, 動的発達という, 心理学に根ざした個性の原則を統合したPersLLMを提案する。
モデルパラメータに直接パーソナリティ特性を組み込み、誘導に対するモデルの抵抗性を高め、一貫性を高め、パーソナリティの動的進化を支援する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Characterizing Truthfulness in Large Language Model Generations with
Local Intrinsic Dimension [63.330262740414646]
大規模言語モデル(LLM)から生成されたテキストの真偽を特徴付ける方法と予測法について検討する。
モデルアクティベーションの局所固有次元 (LID) を用いて, 内部アクティベーションを調査し, LLMの真偽を定量化する。
論文 参考訳(メタデータ) (2024-02-28T04:56:21Z) - Enhancing Role-playing Systems through Aggressive Queries: Evaluation and Improvement [17.5855800570993]
大言語モデル(LLM)は、特にロールプレイングシステム(RPS)分野において、対話生成を新しい領域に推進している。
既存のLLMベースのRSSは、境界シナリオで複雑なクエリと閉じ込められたクエリを扱う場合、役割と整合するのに依然として苦労している。
本研究は,MORTISE (Modular Orchestrated Trap-setting Interaction SystEm) を設計し,ロールプレイングLLMの性能向上を図る。
論文 参考訳(メタデータ) (2024-02-16T12:12:05Z) - Large Language Models are Superpositions of All Characters: Attaining
Arbitrary Role-play via Self-Alignment [62.898963074989766]
本稿では,ロールプレイのための自己アライメント手法であるDittoを紹介する。
この方法は4000文字からなるロールプレイトレーニングセットを生成し、現在利用可能なデータセットのスケールを10倍に超える。
本稿では,ロールプレイ領域におけるクロススーパービジョンアライメント実験について紹介する。
論文 参考訳(メタデータ) (2024-01-23T03:56:22Z) - SALMON: Self-Alignment with Instructable Reward Models [80.83323636730341]
本稿では,基本言語モデルと人間の監督を最小限に整合させる新しいアプローチ,すなわちSALMONを提案する。
私たちはDromedary-2という名のAIアシスタントを開発しており、コンテキスト内学習には6つの例と31の人間定義原則しかありません。
論文 参考訳(メタデータ) (2023-10-09T17:56:53Z) - RoleLLM: Benchmarking, Eliciting, and Enhancing Role-Playing Abilities of Large Language Models [107.00832724504752]
大規模言語モデル(LLM)におけるロールプレイング能力をベンチマークし、評価し、拡張するフレームワークであるRoleLLMを紹介する。
Context-InstructとRoleGPTによって、168,093サンプルでロールプレイする最初の体系的できめ細かい文字レベルのベンチマークデータセットであるRoleBenchを作成します。
論文 参考訳(メタデータ) (2023-10-01T17:52:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。