論文の概要: A General Highly Accurate Online Planning Method Integrating Large Language Models into Nested Rollout Policy Adaptation for Dialogue Tasks
- arxiv url: http://arxiv.org/abs/2511.21706v1
- Date: Mon, 17 Nov 2025 02:48:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-07 19:06:32.346771
- Title: A General Highly Accurate Online Planning Method Integrating Large Language Models into Nested Rollout Policy Adaptation for Dialogue Tasks
- Title(参考訳): 対話タスクのNested Rollout Policy Adaptationに大規模言語モデルを統合する汎用的高精度オンラインプランニング手法
- Authors: Hui Wang, Fafa Zhang, Xiaoyu Zhang, Chaoxu Mu,
- Abstract要約: 目標指向の対話タスクでは、主な課題は、限られた回数のターンで、与えられた目標に対する対話を操ることである。
既存のアプローチは、精巧なプロンプトエンジニアリングに依存するか、ポリシーネットワークと事前訓練されたポリシーモデルを統合するかのどちらかである。
本稿では,新たな対話ポリシー計画手法であるNested Rollout Policy Adaptation for Goal-oriented Dialogue (NRPA-GD)を提案する。
- 参考スコア(独自算出の注目度): 16.400192943577743
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In goal-oriented dialogue tasks, the main challenge is to steer the interaction towards a given goal within a limited number of turns. Existing approaches either rely on elaborate prompt engineering, whose effectiveness is heavily dependent on human experience, or integrate policy networks and pre-trained policy models, which are usually difficult to adapt to new dialogue scenarios and costly to train. Therefore, in this paper, we present Nested Rollout Policy Adaptation for Goal-oriented Dialogue (NRPA-GD), a novel dialogue policy planning method that completely avoids specific model training by utilizing a Large Language Model (LLM) to simulate behaviors of user and system at the same time. Specifically, NRPA-GD constructs a complete evaluation mechanism for dialogue trajectories and employs an optimization framework of nested Monte Carlo simulation and policy self-adaptation to dynamically adjust policies during the dialogue process. The experimental results on four typical goal-oriented dialogue datasets show that NRPA-GD outperforms both existing prompt engineering and specifically pre-trained model-based methods. Impressively, NRPA-GD surpasses ChatGPT and pre-trained policy models with only a 0.6-billion-parameter LLM. The proposed approach further demonstrates the advantages and novelty of employing planning methods on LLMs to solve practical planning tasks.
- Abstract(参考訳): 目標指向の対話タスクでは、主な課題は、限られた回数のターンで、与えられた目標に対する対話を操ることである。
既存のアプローチは、人間の経験に大きく依存している精巧なプロンプトエンジニアリングに依存するか、あるいは、新しい対話シナリオに適応することが難しく、訓練にコストがかかるポリシーネットワークと事前訓練されたポリシーモデルを統合するかのいずれかである。
そこで本稿では,目標指向対話のためのNested Rollout Policy Adaptation for Goal-oriented Dialogue (NRPA-GD)を提案する。
具体的には、NRPA-GDは対話軌跡の完全な評価機構を構築し、ネストしたモンテカルロシミュレーションとポリシー自己適応の最適化フレームワークを用いて対話プロセス中のポリシーを動的に調整する。
4つの典型的な目標指向対話データセットの実験結果から、NRPA-GDは既存のプロンプトエンジニアリングと特に訓練済みのモデルベース手法の両方に優れることが示された。
興味深いことに、NRPA-GD は ChatGPT と事前訓練された政策モデルを超え、わずか 0.6 キロメートルの LLM しか持たない。
提案手法は, 実用的な計画課題を解決するため, LLM上での計画手法の利点と新規性を示すものである。
関連論文リスト
- Simulating Before Planning: Constructing Intrinsic User World Model for User-Tailored Dialogue Policy Planning [31.785493263807684]
本稿では,ユーザ特性とフィードバックをモデル化する内在的ユーザワールドモデルを組み込んだUDP(User-Tailored Dialogue Policy Planning)フレームワークを提案する。
UDP は,(1) ユーザプロファイルを動的に推測するために拡散モデルを用いたユーザペルソナポートレイティング,(2) ユーザフィードバック予測, ブラウン橋にインスパイアされた予測器を用いたユーザ反応予測,(3) ユーザ対応型ポリシープランニング, これらの洞察の統合による応答戦略の最適化の3段階で動作する。
論文 参考訳(メタデータ) (2025-04-18T11:48:55Z) - Simulation-Free Hierarchical Latent Policy Planning for Proactive Dialogues [31.92843134331582]
本稿では,新たな対話政策計画フレームワークLDPPを紹介する。
対話記録のマイニングポリシから学習ポリシ計画まで,プロセスを完全に自動化する。
実験により,LDPPは2つの前向きシナリオにおいて既存手法よりも優れた性能を示した。
論文 参考訳(メタデータ) (2024-12-19T07:06:01Z) - ChatSOP: An SOP-Guided MCTS Planning Framework for Controllable LLM Dialogue Agents [52.7201882529976]
対話エージェントの制御性を高めるため,SOP誘導モンテカルロ木探索(MCTS)計画フレームワークを提案する。
これを実現するために、GPT-4oを用いた半自動ロールプレイシステムを用いて、SOPアノテーション付きマルチシナリオ対話からなるデータセットをキュレートする。
また、SOP予測のための教師付き微調整と思考の連鎖推論を統合する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-04T12:23:02Z) - Dialogue Action Tokens: Steering Language Models in Goal-Directed Dialogue with a Multi-Turn Planner [51.77263363285369]
本稿では,対話行動トークンと呼ばれる言語モデルエージェントを用いて,目標指向の対話を計画する手法を提案する。
中心となる考え方は、各発話をアクションとして扱うことで、強化学習のような既存のアプローチを適用することができるゲームに対話を変換することである。
論文 参考訳(メタデータ) (2024-06-17T18:01:32Z) - Planning Like Human: A Dual-process Framework for Dialogue Planning [31.995557540062553]
大規模言語モデル(LLM)における対話計画を強化するための2段階対話計画フレームワークを提案する。
心理学における二重過程理論に触発されて、直感的(高速)と分析的(スロー)の2つの思考様式を具現化した枠組みを提案する。
実験により,DPDPが高品質な対話と操作効率を両立し,既存手法よりも優れていることを確認した。
論文 参考訳(メタデータ) (2024-06-08T06:52:47Z) - Plug-and-Play Policy Planner for Large Language Model Powered Dialogue
Agents [121.46051697742608]
そこで本稿では,PDPPという言語モデルプラグインを用いて対話問題を整理するための新たな対話ポリシー計画パラダイムを提案する。
具体的には、利用可能な人間の注釈付きデータに対する教師付き微調整を容易にするための新しいトレーニングフレームワークを開発する。
PPDPPは3つの異なるプロアクティブな対話アプリケーションにおいて、既存のアプローチを一貫して、実質的に上回っている。
論文 参考訳(メタデータ) (2023-11-01T03:20:16Z) - JoTR: A Joint Transformer and Reinforcement Learning Framework for
Dialog Policy Learning [53.83063435640911]
対話政策学習(DPL)は対話モデリングの重要な構成要素である。
フレキシブルな対話行動を生成するための新しいフレームワークであるJoTRを導入する。
従来の方法とは異なり、JoTRはよりダイナミックで適応可能な対話アクション生成を可能にするワードレベルのポリシーを定式化している。
論文 参考訳(メタデータ) (2023-09-01T03:19:53Z) - Guided Dialog Policy Learning without Adversarial Learning in the Loop [103.20723982440788]
対話政策とともに報酬関数を学習するために,多くの逆学習法が提案されている。
敵の訓練を2つの段階に分割することを提案する。
まず,識別器を補助対話生成器で訓練し,得られた報酬モデルを共通RL法に組み込んで対話ポリシー学習を指導する。
論文 参考訳(メタデータ) (2020-04-07T11:03:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。