論文の概要: Simulating Before Planning: Constructing Intrinsic User World Model for User-Tailored Dialogue Policy Planning
- arxiv url: http://arxiv.org/abs/2504.13643v1
- Date: Fri, 18 Apr 2025 11:48:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-28 15:54:09.542554
- Title: Simulating Before Planning: Constructing Intrinsic User World Model for User-Tailored Dialogue Policy Planning
- Title(参考訳): 計画前シミュレーション:ユーザ設計対話政策計画のための本質的ユーザワールドモデルの構築
- Authors: Tao He, Lizi Liao, Ming Liu, Bing Qin,
- Abstract要約: 本稿では,ユーザ特性とフィードバックをモデル化する内在的ユーザワールドモデルを組み込んだUDP(User-Tailored Dialogue Policy Planning)フレームワークを提案する。
UDP は,(1) ユーザプロファイルを動的に推測するために拡散モデルを用いたユーザペルソナポートレイティング,(2) ユーザフィードバック予測, ブラウン橋にインスパイアされた予測器を用いたユーザ反応予測,(3) ユーザ対応型ポリシープランニング, これらの洞察の統合による応答戦略の最適化の3段階で動作する。
- 参考スコア(独自算出の注目度): 31.785493263807684
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent advancements in dialogue policy planning have emphasized optimizing system agent policies to achieve predefined goals, focusing on strategy design, trajectory acquisition, and efficient training paradigms. However, these approaches often overlook the critical role of user characteristics, which are essential in real-world scenarios like conversational search and recommendation, where interactions must adapt to individual user traits such as personality, preferences, and goals. To address this gap, we first conduct a comprehensive study utilizing task-specific user personas to systematically assess dialogue policy planning under diverse user behaviors. By leveraging realistic user profiles for different tasks, our study reveals significant limitations in existing approaches, highlighting the need for user-tailored dialogue policy planning. Building on this foundation, we present the User-Tailored Dialogue Policy Planning (UDP) framework, which incorporates an Intrinsic User World Model to model user traits and feedback. UDP operates in three stages: (1) User Persona Portraying, using a diffusion model to dynamically infer user profiles; (2) User Feedback Anticipating, leveraging a Brownian Bridge-inspired anticipator to predict user reactions; and (3) User-Tailored Policy Planning, integrating these insights to optimize response strategies. To ensure robust performance, we further propose an active learning approach that prioritizes challenging user personas during training. Comprehensive experiments on benchmarks, including collaborative and non-collaborative settings, demonstrate the effectiveness of UDP in learning user-specific dialogue strategies. Results validate the protocol's utility and highlight UDP's robustness, adaptability, and potential to advance user-centric dialogue systems.
- Abstract(参考訳): 対話政策計画の最近の進歩は、事前定義された目標を達成するためにシステムエージェントポリシーを最適化すること、戦略設計、軌道獲得、効率的な訓練パラダイムに焦点を当てることを強調している。
しかしながら、これらのアプローチは、対話的な検索やレコメンデーションのような現実のシナリオにおいて不可欠な、ユーザ特性の重要な役割をしばしば見落としている。
このギャップに対処するために、まずタスク固有のユーザペルソナを活用し、多様なユーザ行動下での対話ポリシープランニングを体系的に評価する。
本研究は,現実的なユーザプロファイルをさまざまなタスクに活用することにより,既存アプローチの大幅な制限を明らかにし,ユーザに適した対話ポリシー計画の必要性を強調した。
この基盤を基盤として,ユーザ特性とフィードバックをモデル化する内在的ユーザワールドモデルを組み込んだUDP(User-Tailored Dialogue Policy Planning)フレームワークを提案する。
UDP は,(1) ユーザプロファイルを動的に推測するために拡散モデルを用いたユーザペルソナポートレイティング,(2) ユーザフィードバック予測, ブラウン橋にインスパイアされた予測器を用いたユーザ反応予測,(3) ユーザ対応型ポリシープランニング, これらの洞察の統合による応答戦略の最適化の3段階で動作する。
頑健なパフォーマンスを確保するために,我々は,学習中に挑戦的なユーザペルソナを優先する,アクティブな学習手法を提案する。
協調的および非協調的な設定を含むベンチマークに関する総合的な実験は、ユーザ固有の対話戦略の学習におけるUDPの有効性を実証する。
その結果,UDPの堅牢性,適応性,ユーザ中心の対話システム構築の可能性を強調した。
関連論文リスト
- Enhancing Personalized Multi-Turn Dialogue with Curiosity Reward [11.495697919066341]
ポリシーエージェントは、ユーザの好み、性格、属性に合った振る舞いをパーソナライズできなければならない。
Reinforcement Learning from Human Feedback (RLHF)のような現在のトレーニング手法は、有用性と安全性を優先しているが、真に共感的で適応的でパーソナライズされた相互作用を育むには不足している。
マルチターンRLHFとともに,会話エージェントのユーザモデルを改善するための本質的なモチベーションを付加することを提案する。
論文 参考訳(メタデータ) (2025-04-04T06:35:02Z) - Towards Personalized Conversational Sales Agents : Contextual User Profiling for Strategic Action [12.637812936971049]
本稿では、嗜好の誘惑、推薦、説得を統一する新しいタスクである会話販売(CSales)を紹介する。
CSales の現実的な評価のために,実世界のデータから構築した LLM ベースのユーザシミュレータ CSUser を提案する。
また、対話型行動計画のための対話を通して文脈プロファイルを積極的に推測する対話型販売エージェントCSIを提案する。
論文 参考訳(メタデータ) (2025-03-28T15:49:52Z) - Strength Lies in Differences! Improving Strategy Planning for Non-collaborative Dialogues via Diversified User Simulation [69.5677514160986]
本研究では,多様なユーザとの戦略的対話に携わる非協力的対話エージェントについて検討する。
これは既存の対話エージェントに2つの大きな課題をもたらす。
本稿では,ユーザ認識型戦略計画モジュールと人口ベーストレーニングパラダイムを取り入れた,適切な戦略計画の能力を高めるためのTripを提案する。
論文 参考訳(メタデータ) (2024-03-11T14:38:16Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - "Think Before You Speak": Improving Multi-Action Dialog Policy by
Planning Single-Action Dialogs [33.78889030078026]
マルチアクションダイアログポリシー(MADP)は、ターンごとに複数のアトミックダイアログアクションを生成する。
シングルアクションダイアログダイナミクスを学習する新しいマルチタスク学習フレームワークであるPlanning Enhanced Dialog Policy (PEDP)を提案する。
完全教師付き学習ベース手法は, タスク成功率90.6%を達成し, 最先端の手法に比べて3%向上した。
論文 参考訳(メタデータ) (2022-04-25T07:55:53Z) - Interacting with Non-Cooperative User: A New Paradigm for Proactive
Dialogue Policy [83.61404191470126]
インタラクティブな環境下でプロアクティブなポリシーを学習できるI-Proという新しいソリューションを提案する。
具体的には,4つの要因からなる学習目標重みを通じてトレードオフを学習する。
実験の結果,I-Proは,有効性と解釈性において,ベースラインを著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2022-04-07T14:11:31Z) - User Satisfaction Estimation with Sequential Dialogue Act Modeling in
Goal-oriented Conversational Systems [65.88679683468143]
我々は,ユーザ満足度を予測するために,対話行動の逐次的ダイナミクスを取り入れた新しいフレームワーク,すなわちUSDAを提案する。
USDAは、ユーザの満足度を予測するために、コンテンツと行動機能の連続的な遷移を対話に取り入れている。
4つのベンチマーク目標指向対話データセットによる実験結果から,提案手法はUSEの既存手法よりも大幅に優れていた。
論文 参考訳(メタデータ) (2022-02-07T02:50:07Z) - Optimizing Interactive Systems via Data-Driven Objectives [70.3578528542663]
本稿では,観察されたユーザインタラクションから直接目的を推測する手法を提案する。
これらの推論は、事前の知識によらず、様々な種類のユーザー行動にまたがって行われる。
本稿では,これらの推定対象を最適化するために利用する新しいアルゴリズムであるInteractive System(ISO)を紹介する。
論文 参考訳(メタデータ) (2020-06-19T20:49:14Z) - Learning Goal-oriented Dialogue Policy with Opposite Agent Awareness [116.804536884437]
本稿では,目標指向対話における政策学習のための逆行動認識フレームワークを提案する。
我々は、その行動から相手エージェントの方針を推定し、この推定を用いてターゲットエージェントを対象ポリシーの一部として関連づけて改善する。
論文 参考訳(メタデータ) (2020-04-21T03:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。