論文の概要: ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents
- arxiv url: http://arxiv.org/abs/2505.23923v1
- Date: Thu, 29 May 2025 18:15:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.618736
- Title: ChARM: Character-based Act-adaptive Reward Modeling for Advanced Role-Playing Language Agents
- Title(参考訳): ChARM: 高度なロールプレイング言語エージェントのための文字ベースアクト適応リワードモデリング
- Authors: Feiteng Fang, Ting-En Lin, Yuchuan Wu, Xiong Liu, Xiang Huang, Dingwei Chen, Jing Ye, Haonan Zhang, Liang Zhu, Hamid Alinejad-Rokny, Min Yang, Fei Huang, Yongbin Li,
- Abstract要約: Role-Playing Language Agents (RPLA) は、現実的で魅力的な人間とコンピュータのインタラクションのために文字をシミュレートすることを目的としている。
キャラクタに基づくアクト適応リワードモデルであるChARMを提案する。
RPLAに特化した最初の大規模嗜好データセットであるRoleplayPrefを紹介する。
- 参考スコア(独自算出の注目度): 60.325553329946
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Role-Playing Language Agents (RPLAs) aim to simulate characters for realistic and engaging human-computer interactions. However, traditional reward models often struggle with scalability and adapting to subjective conversational preferences. We propose ChARM, a Character-based Act-adaptive Reward Model, addressing these challenges through two innovations: (1) an act-adaptive margin that significantly enhances learning efficiency and generalizability, and (2) a self-evolution mechanism leveraging large-scale unlabeled data to improve training coverage. Additionally, we introduce RoleplayPref, the first large-scale preference dataset specifically for RPLAs, featuring 1,108 characters, 13 subcategories, and 16,888 bilingual dialogues, alongside RoleplayEval, a dedicated evaluation benchmark. Experimental results show a 13% improvement over the conventional Bradley-Terry model in preference rankings. Furthermore, applying ChARM-generated rewards to preference learning techniques (e.g., direct preference optimization) achieves state-of-the-art results on CharacterEval and RoleplayEval. Code and dataset are available at https://github.com/calubkk/ChARM.
- Abstract(参考訳): Role-Playing Language Agents (RPLA) は、現実的で魅力的な人間とコンピュータのインタラクションのために文字をシミュレートすることを目的としている。
しかし、伝統的な報酬モデルは、しばしばスケーラビリティと主観的な会話の好みに適応するのに苦労する。
キャラクタに基づくアクト適応リワードモデルであるChARMを提案し,(1)学習効率と一般化性を大幅に向上させるアクト適応マージン,(2)大規模未ラベルデータを活用した自己進化機構を用いてトレーニングカバレッジを向上させる。
さらに、1,108文字、13のサブカテゴリ、16,888のバイリンガルダイアログを備えたRPLA用の最初の大規模嗜好データセットであるRoleplayPrefと、専用の評価ベンチマークであるRoleplayEvalを紹介する。
実験の結果,従来のBradley-Terryモデルよりも13%改善した。
さらに、ChARM生成した報酬を選好学習技術(例えば、直接選好最適化)に適用すると、 characterEval と RoleplayEval の最先端結果が得られる。
コードとデータセットはhttps://github.com/calubkk/ChARM.comで入手できる。
関連論文リスト
- FLoRA: Sample-Efficient Preference-based RL via Low-Rank Style Adaptation of Reward Functions [14.26977110112456]
嗜好に基づく強化学習は、事前学習されたロボット行動のスタイル適応に適したアプローチである。
近年の適応的アプローチは、新たな嗜好に適合する報酬モデルがオーバーフィットする、破滅的な報酬の忘れ込み(CRF)に悩まされている。
本手法は,シミュレーション・ベンチマーク・タスクと実世界の複数のロボット・タスクにまたがって,人間の嗜好にロボットの振る舞いを効率よく,効果的に調整できることを示す。
論文 参考訳(メタデータ) (2025-04-14T09:04:14Z) - Beyond Bradley-Terry Models: A General Preference Model for Language Model Alignment [51.14207112118503]
我々は、優先順位を効率的に捉えるために、応答を潜在空間に埋め込むアプローチである選好埋め込みを導入する。
また、人間からのフィードバックから報酬に基づく強化学習を一般化する嗜好スコアに基づく一般選好最適化(GPO)を提案する。
提案手法は,基礎モデルの微妙な人的価値との整合性を高めることができる。
論文 参考訳(メタデータ) (2024-10-03T04:22:55Z) - Personalizing Reinforcement Learning from Human Feedback with Variational Preference Learning [12.742158403867002]
ヒューマンフィードバックからの強化学習は、基礎モデルを人間の価値観や好みに合わせるための強力なパラダイムである。
現在のRLHF技術は、多様な集団における個人の嗜好の自然に生じる相違を説明できない。
マルチモーダルなRLHF手法のクラスを開発し,多元的アライメントの必要性に対処する。
論文 参考訳(メタデータ) (2024-08-19T15:18:30Z) - Secrets of RLHF in Large Language Models Part II: Reward Modeling [134.97964938009588]
本稿では,データセットにおける不正確で曖昧な嗜好の影響を軽減するために,一連の新しい手法を紹介する。
また、選択された応答と拒否された応答を区別する報酬モデルの有用性を高めるために、対照的な学習を導入する。
論文 参考訳(メタデータ) (2024-01-11T17:56:59Z) - TransAct: Transformer-based Realtime User Action Model for
Recommendation at Pinterest [17.247452803197362]
本稿では、PinterestのHomefeedランキングアーキテクチャについて述べる。
本研究では,リアルタイム活動からユーザの短期的嗜好を抽出するシーケンシャルモデルであるTransActを提案する。
本稿では, アブレーション研究の結果, 生産時の課題, オンラインA/B実験の結果について述べる。
論文 参考訳(メタデータ) (2023-05-31T23:45:29Z) - Robust Preference Learning for Storytelling via Contrastive
Reinforcement Learning [53.92465205531759]
制御された自動ストーリ生成は、自然言語批判や嗜好から制約を満たす自然言語ストーリを生成することを目指している。
対照的なバイエンコーダモデルをトレーニングし、ストーリーを人間の批評と整合させ、汎用的な嗜好モデルを構築する。
我々はさらに、ストーリー生成の堅牢性を高めるために、プロンプトラーニング技術を用いて、対照的な報酬モデルを微調整する。
論文 参考訳(メタデータ) (2022-10-14T13:21:33Z) - Leveraging Historical Interaction Data for Improving Conversational
Recommender System [105.90963882850265]
アイテムと属性に基づく嗜好シーケンスを統合するための,新しい事前学習手法を提案する。
実世界の2つのデータセットの実験結果から,本手法の有効性が示された。
論文 参考訳(メタデータ) (2020-08-19T03:43:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。