論文の概要: Aligning LLMs Toward Multi-Turn Conversational Outcomes Using Iterative PPO
- arxiv url: http://arxiv.org/abs/2511.21638v1
- Date: Wed, 26 Nov 2025 18:12:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:59.238077
- Title: Aligning LLMs Toward Multi-Turn Conversational Outcomes Using Iterative PPO
- Title(参考訳): 反復型PPOを用いた多段階会話結果へのLLMの適応
- Authors: Daniel R. Jiang, Jalaj Bhandari, Yukai Yang, Rémi Munos, Tyler Lu,
- Abstract要約: 本稿では,マルチターンRLの問題を単一ターンRLHF型問題に形式的に還元する手法を提案する。
これは、学習した多ターンQ-関数を単ターン問題に対する報酬モデルとして設定することで達成される。
この単一ターンRL問題を標準トークンレベルのPPOで解くことは、マルチターン問題における政策改善ステップと等価である。
- 参考スコア(独自算出の注目度): 11.744767200848806
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Optimizing large language models (LLMs) for multi-turn conversational outcomes remains a significant challenge, especially in goal-oriented settings like AI marketing or sales agents who facilitate transactions via messaging platforms. The difficulty stems from sparse, long-horizon rewards and the discrepancy between response-level planning and token-level generation. In this technical note, we propose a formal reduction of the multi-turn RL problem into a sequence of single-turn RLHF-style problems. This is achieved by setting a learned multi-turn Q-function as the reward model for the single-turn problem. We demonstrate and prove a key insight: solving this single-turn RL problem with standard token-level PPO is equivalent to a policy improvement step within the multi-turn problem. This insight naturally leads to Iterative PPO, a batch online policy iteration algorithm that alternates between fitting Q-functions from logged conversation trajectories and improving the policy. A major practical advantage is that Iterative PPO directly leverages stable, off-the-shelf single-turn RLHF tools, making it straightforward to implement. Our method occupies a middle ground between fully online and fully offline approaches, retaining the adaptability of online updates while gaining the stability benefits of offline training.
- Abstract(参考訳): 大規模言語モデル(LLM)を多ターンの会話結果に最適化することは、特にAIマーケティングやメッセージングプラットフォーム経由のトランザクションを促進するセールスエージェントといった目標指向の設定において、依然として大きな課題である。
この難しさは、スパース、ロングホライゾンの報酬、およびレスポンスレベルの計画とトークンレベルの生成の相違に起因する。
本稿では,マルチターンRLの問題を単一ターンRLHF型問題に形式的に還元する手法を提案する。
これは、学習した多ターンQ-関数を単ターン問題に対する報酬モデルとして設定することで達成される。
この単一ターンRL問題を標準トークンレベルのPPOで解くことは、マルチターン問題における政策改善ステップと等価である。
この洞察は、ログ化された会話軌跡からのQ-関数の適合とポリシーの改善を交互に交互に行う、バッチオンラインポリシー反復アルゴリズムであるIterative PPOに自然に導かれる。
実用上の大きな利点は、Iterative PPOが安定的でオフザシェルのシングルターンRLHFツールを直接活用することで、実装が容易である点である。
本手法は,完全オンラインアプローチと完全オフラインアプローチの中間地点を占め,オンライン更新の適応性を維持しつつ,オフライントレーニングの安定性のメリットを享受する。
関連論文リスト
- SALT: Step-level Advantage Assignment for Long-horizon Agents via Trajectory Graph [15.303565124424635]
大きな言語モデル(LLM)は、言語エージェントがシングルターンタスクでエキサイティングな機能を示す。
複雑な多段階・長期のタスクへの応用は依然として困難である。
本稿では,結果報酬のみから派生した,よりきめ細かい有利な代入を提供するフレームワークであるSALTを提案する。
論文 参考訳(メタデータ) (2025-10-22T20:50:24Z) - One Step is Enough: Multi-Agent Reinforcement Learning based on One-Step Policy Optimization for Order Dispatch on Ride-Sharing Platforms [11.43941442981793]
MARLベースのライドシェアリングアプローチは、Q値またはV値の正確な推定に大きく依存している。
本稿では,値関数推定をバイパスする2つの新しい方法を提案する。
まず、GRPOをライドシェアリングに適応させ、PPOベースラインをグループ平均報酬に置き換えて、批判的推定誤差を排除する。
第2に、GRPOによるグループ報酬情報の完全活用に触発されて、配車プラットフォーム向けのPPOフレームワークをカスタマイズし、均質なフリートの下では、1ステップの報酬のみを使用して最適な政策を訓練できることを示します。
論文 参考訳(メタデータ) (2025-07-21T08:04:31Z) - Q-SFT: Q-Learning for Language Models via Supervised Fine-Tuning [62.984693936073974]
価値に基づく強化学習は、幅広いマルチターン問題に対する効果的なポリシーを学ぶことができる。
現在の値ベースのRL法は、特に大規模な言語モデルの設定にスケールすることが困難であることが証明されている。
本稿では,これらの欠点に対処する新しいオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-11-07T21:36:52Z) - Learning Reward and Policy Jointly from Demonstration and Preference Improves Alignment [58.049113055986375]
我々は、報酬モデルとポリシーをトレーニングするために、AIHF(Alignment with Integrated Human Feedback)と呼ばれる単一ステージアプローチを開発する。
提案した手法は、一般的なアライメントアルゴリズムに容易に還元し、活用できる、効率的なアルゴリズムの集合を認めている。
本研究では,LLMにおけるアライメント問題と,MuJoCoにおけるロボット制御問題を含む広範な実験により,提案手法の有効性を実証する。
論文 参考訳(メタデータ) (2024-06-11T01:20:53Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z) - Projected Off-Policy Q-Learning (POP-QL) for Stabilizing Offline
Reinforcement Learning [57.83919813698673]
Projected Off-Policy Q-Learning (POP-QL) は、政治外のサンプルを同時に重み付け、分散を防止し、価値近似誤差を減らすためにポリシーを制約する新しいアクタ批判アルゴリズムである。
我々の実験では、POP-QLは標準ベンチマーク上での競合性能を示すだけでなく、データ収集ポリシーがかなり最適化されていないタスクにおいて競合するメソッドよりも優れています。
論文 参考訳(メタデータ) (2023-11-25T00:30:58Z) - A Model-Based Solution to the Offline Multi-Agent Reinforcement Learning
Coordination Problem [22.385585755496116]
既存のMARL(Multi-Agent Reinforcement Learning)手法はオンラインであり,新たなインタラクションの収集に費用がかかる,あるいは危険である実世界のアプリケーションには実用的ではない。
戦略合意(SA)と戦略細調整(SFT)の調整課題を特定し,定式化する。
MOMA-PPO (Model-based Offline Multi-Agent Proximal Policy Optimization) は,合成相互作用データを生成し,エージェントがポリシーを微調整しながら戦略に収束することを可能にするアルゴリズムである。
論文 参考訳(メタデータ) (2023-05-26T18:43:16Z) - EMaQ: Expected-Max Q-Learning Operator for Simple Yet Effective Offline
and Online RL [48.552287941528]
オフ・ポリティクス強化学習は、意思決定ポリシーのサンプル効率の学習を約束する。
オフラインのRL設定では、標準のオフポリシーのRLメソッドは大幅に性能が低下する。
本稿では,提案アルゴリズムとより密接な関係を持つ期待値Q-Learning(EMaQ)を提案する。
論文 参考訳(メタデータ) (2020-07-21T21:13:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。