Fugu-MT 論文翻訳(概要): Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization

論文の概要: Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization

arxiv url: http://arxiv.org/abs/2602.15854v1
Date: Sat, 24 Jan 2026 06:35:23 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-23 12:01:13.653122
Title: Decoupling Strategy and Execution in Task-Focused Dialogue via Goal-Oriented Preference Optimization
Title（参考訳）: Goal-Oriented Preference Optimizationによるタスク焦点対話のデカップリング戦略と実行
Authors: Jingyi Xu, Xingyu Ren, Zhiqiang You, Yumeng Zhang, Zhoupeng Shou,
Abstract要約: GOPOは階層的な強化学習フレームワークで、Expert AgentとCustomer Service Agentを介して、レスポンス生成から戦略計画を切り離します。我々は、公開ベンチマークとeコマース顧客サービスデータセット上でGOPOを評価し、タスク中心のシーケンシャルエンゲージメント(TSE)を導入する。 GOPOはTSEを7.7%改善し、PPOやMementoよりも10.3%向上した。
参考スコア（独自算出の注目度）: 21.6248967345518
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models show potential in task-oriented dialogue systems, yet existing training methods often rely on token-level likelihood or preference optimization, which poorly align with long-horizon task success. To address this, we propose Goal-Oriented Preference Optimization (GOPO), a hierarchical reinforcement learning framework that decouples strategy planning from response generation via an Expert Agent and a Customer Service Agent. The Expert Agent optimizes multi-turn goal preferences at the dialogue-trajectory level, while the Customer Service Agent generates responses strictly aligned with the selected strategy. We evaluate GOPO on public benchmarks and e-commerce customer service datasets, and introduce Task-focused Sequential Engagement (TSE), a sequence-level metric derived from real e-commerce interaction data. On the Mgshop dataset, GOPO improves TSE by 7.7% and 10.3% over PPO and Memento, with consistent gains in sequence-level reward and generation quality. Furthermore, a 14B model trained with GOPO achieves 2.7% and 1.5% higher TSE than Qwen-235B and GPT-5.2, respectively. Ablation studies confirm the Expert Agent's critical role in long-horizon optimization. GOPO demonstrates consistent improvements across other datasets as well. This work establishes a new paradigm for task-oriented dialogue systems in commercial scenarios, with code and datasets to be made public.
Abstract（参考訳）: 大規模言語モデルはタスク指向の対話システムにおいてポテンシャルを示すが、既存の訓練手法はトークンレベルの可能性や優先順位の最適化に依存しており、これは長い水平タスクの成功とよく一致しない。そこで本稿では,Goal-Oriented Preference Optimization (GOPO)を提案する。Goal-Oriented Preference Optimization (GOPO)は,専門家エージェントと顧客サービスエージェントを経由した応答生成から戦略計画を切り離す階層的な強化学習フレームワークである。 Expert Agentは対話軌道レベルでのマルチターン目標設定を最適化し、Customer Service Agentは選択した戦略に厳密に準拠したレスポンスを生成する。我々は、公開ベンチマークとeコマース顧客サービスデータセット上でGOPOを評価し、実際のeコマースインタラクションデータから派生したシーケンスレベルの指標であるタスク中心のシーケンシャルエンゲージメント(TSE)を導入する。 Mgshopデータセットでは、GOPOはTSEを7.7%改善し、PPOとMementoを10.3%上回る。さらに、GOPOでトレーニングされた14Bモデルは、それぞれQwen-235BとGPT-5.2よりも2.7%と1.5%高いTSEを達成する。アブレーション研究は、ロングホライゾン最適化において専門家が重要な役割を担っていることを裏付ける。 GOPOは、他のデータセットでも一貫した改善を示している。この研究は、商用シナリオにおけるタスク指向対話システムのための新しいパラダイムを確立し、コードとデータセットを公開する。

関連論文リスト

Hierarchy-of-Groups Policy Optimization for Long-Horizon Agentic Tasks [23.119173310662365]
グループベース強化学習(RL)は、長期エージェントタスクにおける大規模言語モデルの能力を向上させる。私たちは、ステップワイドな相対的優位性、すなわち、同じグループ内のステップが歴史的な文脈で異なる場合のコンテキスト不整合を推定する上で、重要な問題を見つけます。歴史的文脈の整合性に応じて各ステップを複数の階層群に割り当てるHGPOを提案する。
論文参考訳（メタデータ） (2026-02-26T09:58:10Z)
HiPER: Hierarchical Reinforcement Learning with Explicit Credit Assignment for Large Language Model Agents [36.77027704958893]
HiPERは階層的計画実行(Hierarchical Plan-Execute RL)フレームワークで、高レベルの計画と低レベルの実行を分離する。 HiPER は ALFWorld で97.4%、Qwen2.5-7B-Instruct で WebShop で83.3% を達成している。
論文参考訳（メタデータ） (2026-02-18T03:31:34Z)
RankGR: Rank-Enhanced Generative Retrieval with Listwise Direct Preference Optimization in Recommendation [36.297513746770456]
提案するRangGRは、リストワイズ直接選好最適化をレコメンデーションに組み込んだジェネレーティブ検索手法である。 IAPでは、新しいリストワイズ直接選好最適化戦略をGRに組み込んで、階層的ユーザの選好をより包括的に理解する。トレーニングとデプロイメントにおいていくつかの実践的な改善を実現し、最終的には毎秒1万近いリクエストを処理可能なリアルタイムシステムを実現しています。
論文参考訳（メタデータ） (2026-02-09T12:13:43Z)
SCOPE: Prompt Evolution for Enhancing Agent Effectiveness [53.75986399936395]
大規模言語モデル(LLM)エージェントは、大規模で動的なコンテキストを生成する環境にますますデプロイされている。エージェントはこのコンテキストにアクセスできますが、静的なプロンプトには効果的に管理するメカニズムがありません。 textbfSCOPE (Self-evolving Context Optimization via Prompt Evolution) を導入する。本稿では,戦術的特異性(即時誤りの解消)と戦略的汎用性(長期原則の進化)のバランスをとるデュアルストリーム機構を提案する。
論文参考訳（メタデータ） (2025-12-17T12:25:05Z)
Co-EPG: A Framework for Co-Evolution of Planning and Grounding in Autonomous GUI Agents [10.528687017443852]
Co-EPGは、プランニングとグラウンドの共進化のためのセルフイテレーティブなトレーニングフレームワークである。この研究は、GUIエージェントの新たなトレーニングパラダイムを確立し、分離された最適化から、統合された自己駆動の共進化アプローチに移行する。
論文参考訳（メタデータ） (2025-11-13T03:41:02Z)
Hi-Agent: Hierarchical Vision-Language Agents for Mobile Device Control [72.43808515668947]
モバイル制御のためのトレーニング可能な階層型視覚言語エージェントであるHi-Agentを紹介する。 Hi-Agentは高レベルの推論モデルと、共同最適化された低レベルのアクションモデルを備えている。 Hi-Agentは、Android-in-the-Wild(AitW)ベンチマークで、新しいState-Of-The-Art(SOTA)87.9%タスクの成功率を達成した。
論文参考訳（メタデータ） (2025-10-16T07:38:21Z)
In-the-Flow Agentic System Optimization for Effective Planning and Tool Use [73.72524040856052]
AgentFlowはトレーニング可能なインザフローエージェントフレームワークで、進化するメモリを通じて4つのモジュール(プランナ、実行子、検証子、ジェネレータ)をコーディネートする。 Flow-GRPOは、マルチターン最適化をトラクタブルな単一ターンポリシー更新のシーケンスに変換することで、長い水平、スパース・リワードのクレジット割り当てに取り組む。エージェントフローは7Bスケールのバックボーンで、平均的精度が14.9%、エージェントが14.0%、数学が14.5%、科学的タスクが4.1%でトップパフォーマンスのベースラインを上回っている。
論文参考訳（メタデータ） (2025-10-07T05:32:44Z)
LPO: Towards Accurate GUI Agent Interaction via Location Preference Optimization [58.65395773049273]
位置優先最適化(Location Preference Optimization、LPO)は、位置データを利用してインタラクションの好みを最適化する新しいアプローチである。 LPOは情報エントロピーを使用して、情報に富んだゾーンに注目して相互作用位置を予測する。私たちのコードは間もなくhttps://github.com/AIDC-AI/LPO.comで公開されます。
論文参考訳（メタデータ） (2025-06-11T03:43:30Z)
ARPO:End-to-End Policy Optimization for GUI Agents with Experience Replay [88.74638385288773]
Agentic Replay Policy Optimizationは、複雑で長期のコンピュータタスクのパフォーマンスを改善する。本稿では,ベースラインエージェントの性能に基づいてタスクをフィルタリングするタスク選択戦略を提案する。 OSWorldベンチマークの実験では、ARPOが競争結果を達成することを示した。
論文参考訳（メタデータ） (2025-05-22T06:24:32Z)
SDPO: Segment-Level Direct Preference Optimization for Social Agents [56.970902914217156]
大規模言語モデル(LLM)を利用した社会エージェントは、人間の社会的振る舞いをシミュレートできるが、複雑な社会対話を扱うには不十分である。マルチターンエージェントの動作を最適化するために,対話内のキーセグメントを動的に選択するセグメントレベル直接参照最適化(SDPO)を提案する。
論文参考訳（メタデータ） (2025-01-03T14:09:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。