論文の概要: Reinforcing Human Behavior Simulation via Verbal Feedback
- arxiv url: http://arxiv.org/abs/2605.20506v1
- Date: Tue, 19 May 2026 21:23:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 19:19:56.384465
- Title: Reinforcing Human Behavior Simulation via Verbal Feedback
- Title(参考訳): 言語フィードバックによる人間行動シミュレーションの強化
- Authors: Weiwei Sun, Xuhui Zhou, Jiarui Liu, Weihua Du, Haojia Sun, Yiqing Xie, Qianou Ma, Sihao Chen, Mengting Wan, Longqi Yang, Pei Zhou, Sherry Wu, Sean Welleck, Graham Neubig, Yiming Yang, Maarten Sap,
- Abstract要約: 本稿では,言語フィードバックを強化学習の第一級信号として扱うことによって訓練したモデルであるDITTOを提案する。
また、心の理論、キャラクターロールプレイ、社会的スキル、学習者シミュレーション、ユーザシミュレーション、ペルソナシミュレーションの6つのカテゴリにまたがる10のタスクにまたがる統合ベンチマークとトレーニングデータスイートであるSOULを紹介した。
DitTOはベースモデルに対して平均36%の改善を達成し、10のSOULベンチマークでGPT-5.4を上回った。
- 参考スコア(独自算出の注目度): 105.68319269895653
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Humans learn social norms and behaviors from verbal feedback (e.g., a parent saying "that was rude" or a friend explaining "here's why that hurt"). Yet, learning from feedback for LLMs has largely focused on domains like code and math, where RL rewards are directly verifiable and condensed into scalar values. As LLMs are increasingly used to simulate human behavior, e.g., standing in for users, patients, students, and other personas, there is a pressing need to make them more human-like, which requires embracing a fundamentally different kind of signal: feedback that is verbal, subjective, and multi-faceted. We present DITTO, a model trained by treating verbal feedback as a first-class signal in reinforcement learning. After each rollout, DITTO receives verbal feedback and generates a feedback-conditioned improved rollout; both outputs are jointly optimized with GRPO, distilling verbal guidance into the base policy without requiring feedback at test time. We also introduce SOUL (Simulation gym Of hUman-Like behavior), a unified benchmark and training data suite spanning 10 tasks across six categories: Theory of Mind, character role play, social skill, learner simulation, user simulation, and persona simulation. DITTO achieves an average 36% improvement over the base model and exceeds GPT-5.4 on 6 of 10 SOUL benchmarks, demonstrating that RL with verbal feedback is a promising direction for training LLMs to simulate human behavior.
- Abstract(参考訳): 人間は、言葉によるフィードバックから社会的規範や行動を学ぶ(例えば、親が「無礼だ」と言ったり、友人が「それが痛い理由だ」と説明するなど)。
しかし、LLMのフィードバックから学ぶことは、コードや数学のような領域に重点を置いており、RL報酬は直接検証され、スカラー値に凝縮される。
LLMは、例えば、ユーザ、患者、学生、その他のペルソナのために、人間の振る舞いをシミュレートするために使われることが多いため、それらをより人間らしくする必要がある。
本稿では,言語フィードバックを強化学習の第一級信号として扱うことによって訓練したモデルであるDITTOを提案する。
それぞれのロールアウト後、DITTOは言語フィードバックを受け取り、フィードバック条件の改善されたロールアウトを生成する。
また,心の理論,キャラクターロールプレイ,ソーシャルスキル,学習者シミュレーション,ユーザシミュレーション,ペルソナシミュレーションという,6つのカテゴリにまたがる10のタスクにまたがる統合ベンチマークとトレーニングデータスイートであるSOUL(Simulation gym Of hUman-like behavior)を紹介した。
DITTOは10のSOULベンチマークのうち、GPT-5.4を超える平均36%の改善を達成し、言語フィードバックのRLが人間の行動をシミュレートするためにLLMをトレーニングするための有望な方向であることを実証した。
関連論文リスト
- Simulating Students or Sycophantic Problem Solving? On Misconception Faithfulness of LLM Simulators [55.617099475539305]
大規模言語モデル(LLM)は、生徒のような反応を流線型に生成できるため、AI教師や人間教育者のトレーニングや評価のための模擬学生として魅力的である。
しかし、このようなシミュレータは、実際の学生と出力の類似性によって評価され、相互作用中に一貫性のある誤解を持つ学生のように振る舞うかどうかによって評価される。
シミュレーションが誤解駆動の信念状態を維持しているかどうかを判断し、フィードバックが誤解に対処した場合に選択的に更新する。
論文 参考訳(メタデータ) (2026-05-12T20:55:23Z) - Mind the Sim2Real Gap in User Simulation for Agentic Tasks [101.69142591891234]
ユーザシミュレーションにおけるSim2Realのギャップを形式化し、実際の人間に対して$$$-benchプロトコルを実行する最初の研究を示す。
LLMシミュレータは過度に協調的であり、スタイリスティックに均一であり、現実的なフラストレーションや曖昧さを欠いている。
これらの知見は, LLMベースのユーザシミュレータをエージェント開発サイクルで使用する際の人間による検証の重要性を強調した。
論文 参考訳(メタデータ) (2026-03-11T19:12:31Z) - Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。
LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。
我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文 参考訳(メタデータ) (2025-10-31T19:40:41Z) - Customer-R1: Personalized Simulation of Human Behaviors via RL-based LLM Agent in Online Shopping [27.626024821315486]
オンラインショッピング環境におけるユーザ行動のパーソナライズとステップワイズを行うためのRLベースの手法であるCustomer-R1を紹介する。
我々の方針は明示的なペルソナに基づいており、行動正当性報酬信号による次のステップの合理化と行動生成を最適化する。
論文 参考訳(メタデータ) (2025-10-08T17:00:25Z) - Improving Code Generation by Training with Natural Language Feedback [69.52985513422381]
自然言語フィードバックから学習するアルゴリズムを訓練時に形式化し、それをILF(Language Feedback)と呼ぶ。
ILFはトレーニング中に少量の人間によるフィードバックしか必要とせず、テスト時に同じフィードバックを必要としないため、ユーザフレンドリでサンプル効率がよい。
Instly Basic Python Problems (MBPP)ベンチマークでは、ICFを使用してCodegen-Mono 6.1Bモデルのpass@1レートを38%改善しています。
論文 参考訳(メタデータ) (2023-03-28T16:15:31Z) - Pretraining Language Models with Human Preferences [21.724817280998696]
言語モデル(LM)はインターネットテキストを模倣するために事前訓練されている。
そこで本研究では,人間の嗜好に沿ったテキストを生成する方法として,LMの事前学習のための代替目的について検討する。
論文 参考訳(メタデータ) (2023-02-16T21:03:33Z) - Facial Feedback for Reinforcement Learning: A Case Study and Offline
Analysis Using the TAMER Framework [51.237191651923666]
訓練者の表情からエージェント学習の可能性について,評価フィードバックとして解釈することで検討した。
設計したCNN-RNNモデルを用いて,学習者に対して表情とコンペティションの使用を指示することで,肯定的および否定的なフィードバックを推定する精度を向上させることができることを示す。
シミュレーション実験の結果,表情に基づく予測フィードバックのみから学習できることが示唆された。
論文 参考訳(メタデータ) (2020-01-23T17:50:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。