論文の概要: Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization
- arxiv url: http://arxiv.org/abs/2602.15854v1
- Date: Sat, 24 Jan 2026 06:35:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-23 12:01:13.653122
- Title: Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization
- Title(参考訳): Goal-Oriented Preference Optimizationによるタスク焦点対話のデカップリング戦略と実行
- Authors: Jingyi Xu, Xingyu Ren, Zhiqiang You, Yumeng Zhang, Zhoupeng Shou,
- Abstract要約: GOPOは階層的な強化学習フレームワークで、Expert AgentとCustomer Service Agentを介して、レスポンス生成から戦略計画を切り離します。
我々は、公開ベンチマークとeコマース顧客サービスデータセット上でGOPOを評価し、タスク中心のシーケンシャルエンゲージメント(TSE)を導入する。
GOPOはTSEを7.7%改善し、PPOやMementoよりも10.3%向上した。
- 参考スコア(独自算出の注目度): 21.6248967345518
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models show potential in task-oriented dialogue systems, yet existing training methods often rely on token-level likelihood or preference optimization, which poorly align with long-horizon task success. To address this, we propose Goal-Oriented Preference Optimization (GOPO), a hierarchical reinforcement learning framework that decouples strategy planning from response generation via an Expert Agent and a Customer Service Agent. The Expert Agent optimizes multi-turn goal preferences at the dialogue-trajectory level, while the Customer Service Agent generates responses strictly aligned with the selected strategy. We evaluate GOPO on public benchmarks and e-commerce customer service datasets, and introduce Task-focused Sequential Engagement (TSE), a sequence-level metric derived from real e-commerce interaction data. On the Mgshop dataset, GOPO improves TSE by 7.7% and 10.3% over PPO and Memento, with consistent gains in sequence-level reward and generation quality. Furthermore, a 14B model trained with GOPO achieves 2.7% and 1.5% higher TSE than Qwen-235B and GPT-5.2, respectively. Ablation studies confirm the Expert Agent's critical role in long-horizon optimization. GOPO demonstrates consistent improvements across other datasets as well. This work establishes a new paradigm for task-oriented dialogue systems in commercial scenarios, with code and datasets to be made public.
- Abstract(参考訳): 大規模言語モデルはタスク指向の対話システムにおいてポテンシャルを示すが、既存の訓練手法はトークンレベルの可能性や優先順位の最適化に依存しており、これは長い水平タスクの成功とよく一致しない。
そこで本稿では,Goal-Oriented Preference Optimization (GOPO)を提案する。Goal-Oriented Preference Optimization (GOPO)は,専門家エージェントと顧客サービスエージェントを経由した応答生成から戦略計画を切り離す階層的な強化学習フレームワークである。
Expert Agentは対話軌道レベルでのマルチターン目標設定を最適化し、Customer Service Agentは選択した戦略に厳密に準拠したレスポンスを生成する。
我々は、公開ベンチマークとeコマース顧客サービスデータセット上でGOPOを評価し、実際のeコマースインタラクションデータから派生したシーケンスレベルの指標であるタスク中心のシーケンシャルエンゲージメント(TSE)を導入する。
Mgshopデータセットでは、GOPOはTSEを7.7%改善し、PPOとMementoを10.3%上回る。
さらに、GOPOでトレーニングされた14Bモデルは、それぞれQwen-235BとGPT-5.2よりも2.7%と1.5%高いTSEを達成する。
アブレーション研究は、ロングホライゾン最適化において専門家が重要な役割を担っていることを裏付ける。
GOPOは、他のデータセットでも一貫した改善を示している。
この研究は、商用シナリオにおけるタスク指向対話システムのための新しいパラダイムを確立し、コードとデータセットを公開する。
関連論文リスト
- HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents [36.77027704958893]
HiPERは階層的計画実行(Hierarchical Plan-Execute RL)フレームワークで、高レベルの計画と低レベルの実行を分離する。
HiPER は ALFWorld で97.4%、Qwen2.5-7B-Instruct で WebShop で83.3% を達成している。
論文 参考訳(メタデータ) (2026-02-18T03:31:34Z) - RankGR: Rank-Enhanced Generative Retrieval with Listwise Direct Preference Optimization in Recommendation [36.297513746770456]
提案するRangGRは、リストワイズ直接選好最適化をレコメンデーションに組み込んだジェネレーティブ検索手法である。
IAPでは、新しいリストワイズ直接選好最適化戦略をGRに組み込んで、階層的ユーザの選好をより包括的に理解する。
トレーニングとデプロイメントにおいていくつかの実践的な改善を実現し、最終的には毎秒1万近いリクエストを処理可能なリアルタイムシステムを実現しています。
論文 参考訳(メタデータ) (2026-02-09T12:13:43Z) - Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents [10.528687017443852]
Co-EPGは、プランニングとグラウンドの共進化のためのセルフイテレーティブなトレーニングフレームワークである。
この研究は、GUIエージェントの新たなトレーニングパラダイムを確立し、分離された最適化から、統合された自己駆動の共進化アプローチに移行する。
論文 参考訳(メタデータ) (2025-11-13T03:41:02Z) - In-the-Flow Agentic System Optimization for Effective Planning and Tool Use [73.72524040856052]
AgentFlowはトレーニング可能なインザフローエージェントフレームワークで、進化するメモリを通じて4つのモジュール(プランナ、実行子、検証子、ジェネレータ)をコーディネートする。
Flow-GRPOは、マルチターン最適化をトラクタブルな単一ターンポリシー更新のシーケンスに変換することで、長い水平、スパース・リワードのクレジット割り当てに取り組む。
エージェントフローは7Bスケールのバックボーンで、平均的精度が14.9%、エージェントが14.0%、数学が14.5%、科学的タスクが4.1%でトップパフォーマンスのベースラインを上回っている。
論文 参考訳(メタデータ) (2025-10-07T05:32:44Z) - LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization [58.65395773049273]
位置優先最適化(Location Preference Optimization、LPO)は、位置データを利用してインタラクションの好みを最適化する新しいアプローチである。
LPOは情報エントロピーを使用して、情報に富んだゾーンに注目して相互作用位置を予測する。
私たちのコードは間もなくhttps://github.com/AIDC-AI/LPO.comで公開されます。
論文 参考訳(メタデータ) (2025-06-11T03:43:30Z) - ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。
本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。
OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文 参考訳(メタデータ) (2025-05-22T06:24:32Z) - SDPO: Segment-Level Direct Preference Optimization for Social Agents [56.970902914217156]
大規模言語モデル(LLM)を利用した社会エージェントは、人間の社会的振る舞いをシミュレートできるが、複雑な社会対話を扱うには不十分である。
マルチターンエージェントの動作を最適化するために,対話内のキーセグメントを動的に選択するセグメントレベル直接参照最適化(SDPO)を提案する。
論文 参考訳(メタデータ) (2025-01-03T14:09:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。