論文の概要: Personality-Aware Reinforcement Learning for Persuasive Dialogue with LLM-Driven Simulation
- arxiv url: http://arxiv.org/abs/2601.06877v1
- Date: Sun, 11 Jan 2026 11:53:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-13 19:08:01.047395
- Title: Personality-Aware Reinforcement Learning for Persuasive Dialogue with LLM-Driven Simulation
- Title(参考訳): LLM-Driven Simulationを用いた説得対話のためのパーソナリティ・アウェア強化学習
- Authors: Donghuo Zeng, Roberto Legaspi, Kazushi Ikeda,
- Abstract要約: 本稿では,3つの主モジュールからなる人格認識型強化学習手法を提案する。
多様なインタラクションを生成するためにアジェンダベースのシミュレーションパイプラインを使用します。
PersuasionForGoodデータセットにシミュレーションダイアログを付加した実験では,3つの主な発見が示された。
- 参考スコア(独自算出の注目度): 5.97941583499908
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Effective persuasive dialogue agents adapt their strategies to individual users, accounting for the evolution of their psychological states and intentions throughout conversations. We present a personality-aware reinforcement learning approach comprising three main modules: (1) a Strategy-Oriented Interaction Framework, which serves as an agenda-based strategy controller that selects strategy-level actions and generate responses via Maximal Marginal Relevance (MMR) retrieval to ensure contextual relevance, diversity, and scalable data generation; (2) Personality-Aware User Representation Learning, which produces an 81-dimensional mixed-type embedding predicted at each turn from recent exchanges and appended to the reinforcement learning state; and (3) a Dueling Double DQN (D3QN) model and Reward Prediction, in which the policy is conditioned on dialogue history and turn-level personality estimates and trained using a composite reward incorporating agreement intent, donation amount, and changeof-mind penalties. We use an agenda-based LLM simulation pipeline to generate diverse interactions, from which personality estimation is inferred from the generated utterances. Experiments on the PersuasionForGood (P4G) dataset augmented with simulated dialogues reveal three main findings: (i) turn-level personality conditioning improves policy adaptability and cumulative persuasion rewards; (ii) LLM-driven simulation enhances generalization to unseen user behaviors; and (iii) incorporating a change-of-mind penalty reduces post-agreement retractions while slightly improving donation outcomes. These results demonstrate that structured interaction, dynamic personality estimation, and behaviorally informed rewards together yield more effective persuasive policies.
- Abstract(参考訳): 効果的な説得的対話エージェントは、彼らの戦略を個々のユーザーに適用し、彼らの心理的状態と会話を通しての意図の進化を考慮に入れている。
本稿では,(1)戦略レベルの行動を選択し,MMR(Maximal Marginal Relevance)検索を介して応答を生成するアジェンダベースの戦略制御機構として機能し,文脈的関連性,多様性,スケーラブルなデータ生成を保証する人格対応型強化学習,(2)近年の交流から各ターンで予測される81次元混合型埋め込みを生成する人格対応型ユーザ表現学習,(3)対話履歴とターンレベルの人格推定を条件としたデュエルダブルDQN(D3QN)モデルとリワード予測,の3つの主要なモジュールからなる人格対応強化学習手法を提案する。
我々は、アジェンダに基づくLLMシミュレーションパイプラインを用いて多様なインタラクションを生成し、そこから生成された発話からパーソナリティを推定する。
シミュレーション対話を用いたPersuasionForGood(P4G)データセットの実験では,3つの主な発見が示された。
一 ターンレベルの人格条件付けにより、政策適応性及び累積的説得報酬が向上する。
(II)LLMによるシミュレーションは、目に見えないユーザ行動への一般化を促進する。
三 減刑の取組みは、増額後の減額を減らし、寄付の成果をわずかに改善させる。
これらの結果は, 構造的相互作用, 動的性格推定, 行動的報奨が共に, より効果的な説得的政策をもたらすことを示した。
関連論文リスト
- Consistently Simulating Human Personas with Multi-Turn Reinforcement Learning [52.07170679746533]
大規模言語モデル(LLM)は、セラピー、教育、社会的役割プレイといったインタラクティブな環境において、人間のユーザをシミュレートするためにますます使われています。
LLM生成対話におけるペルソナの一貫性の評価と改善のための統一的なフレームワークを提案する。
我々は3つの自動メトリクス、即行一貫性、行間一貫性、Q&A一貫性を定義し、異なるタイプのペルソナドリフトをキャプチャし、それぞれが人間のアノテーションに対して検証する。
論文 参考訳(メタデータ) (2025-10-31T19:40:41Z) - UserRL: Training Interactive User-Centric Agent via Reinforcement Learning [104.63494870852894]
強化学習(Reinforcement Learning, RL)は、動的多ターン相互作用に関わるエージェントモデルのトレーニングにおいて有望であることを示す。
我々は,標準化された体育環境を通じて,ユーザ中心の能力のトレーニングと評価を行う統一的なフレームワークであるUserRLを提案する。
論文 参考訳(メタデータ) (2025-09-24T03:33:20Z) - Exploring the Impact of Personality Traits on Conversational Recommender Systems: A Simulation with Large Language Models [70.180385882195]
本稿では,対話型レコメンダシステム(CRS)のためのパーソナリティを考慮したユーザシミュレーションを提案する。
ユーザエージェントはカスタマイズ可能な性格特性と嗜好を誘導し、システムエージェントはCRS内の現実的な相互作用をシミュレートする説得能力を有する。
実験により,現在最先端のLCMは,特定の性格特性に適合した多様なユーザ応答を効果的に生成できることが示された。
論文 参考訳(メタデータ) (2025-04-09T13:21:17Z) - PersLLM: A Personified Training Approach for Large Language Models [66.16513246245401]
データ構築とモデルチューニングを改善するためのフレームワークPersLLMを提案する。
データ利用が不十分な場合には、Chain-of-Thoughtプロンプトやアンチインダクションといった戦略を取り入れます。
厳密な振舞いパターンを設計し,モデルの性格の特異性とダイナミズムを高めるために自動DPOを導入する。
論文 参考訳(メタデータ) (2024-07-17T08:13:22Z) - Counterfactual Reasoning Using Predicted Latent Personality Dimensions for Optimizing Persuasion Outcome [13.731895847081953]
本稿では,現在進行中の説得会話において,ユーザの潜在人格次元(LPD)を追跡する新しいアプローチを提案する。
我々はこれらのLPDに基づいて、全体的な説得結果を最適化するために、調整済みの対物発話を生成する。
論文 参考訳(メタデータ) (2024-04-21T23:03:47Z) - WeaSuL: Weakly Supervised Dialogue Policy Learning: Reward Estimation
for Multi-turn Dialogue [17.663449579168297]
エージェントとユーザ(教師付き学習目標を持つエージェントに類似したモデル化)の対話をシミュレートし、相互に対話する。
エージェントは動的ブロッキングを使用して、ランク付けされた多様な応答と探索-探索を生成し、トップK応答の中から選択する。
2つのベンチマークによる実証研究は、我々のモデルが応答品質を著しく上回り、会話の成功につながることを示唆している。
論文 参考訳(メタデータ) (2021-08-01T08:00:45Z) - Structural Pre-training for Dialogue Comprehension [51.215629336320305]
本稿では,SPIDER, Structure Pre-trained DialoguE Readerについて述べる。
対話のような特徴をシミュレートするために,元のLM目的に加えて,2つの訓練目標を提案する。
広く使われている対話ベンチマークの実験結果から,新たに導入した自己教師型タスクの有効性が検証された。
論文 参考訳(メタデータ) (2021-05-23T15:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。