論文の概要: Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs
- arxiv url: http://arxiv.org/abs/2601.08403v1
- Date: Tue, 13 Jan 2026 10:17:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-14 18:27:19.147993
- Title: Owen-Shapley Policy Optimization (OSPO): A Principled RL Algorithm for Generative Search LLMs
- Title(参考訳): Owen-Shapley Policy Optimization (OSPO):ジェネレーティブ検索LLMの原理的RLアルゴリズム
- Authors: Abhijnan Nath, Alireza Bagheri Garakani, Tianchen Zhou, Fan Yang, Nikhil Krishnaswamy,
- Abstract要約: Owen-Shapley Policy Optimization (OSPO)は、トークンの成果に対する限界貢献に基づいて、シーケンスレベルの利点を再分配するフレームワークである。
付加的な計算を必要とする値モデルベースの方法とは異なり、OSPOはセグメントレベルのクレジットを割り当てるためにShapley-Owen属性を介して潜在的ベースの報酬シェーピングを採用する。
Amazon ESCIとH&M Fashionデータセットの実験は、ベースラインよりも一貫した利得を示している。
- 参考スコア(独自算出の注目度): 12.75200353208858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models are increasingly trained via reinforcement learning for personalized recommendation tasks, but standard methods like GRPO rely on sparse, sequence-level rewards that create a credit assignment gap, obscuring which tokens drive success. This gap is especially problematic when models must infer latent user intent from under-specified language without ground truth labels, a reasoning pattern rarely seen during pretraining. We introduce Owen-Shapley Policy Optimization (OSPO), a framework that redistributes sequence-level advantages based on tokens' marginal contributions to outcomes. Unlike value-model-based methods requiring additional computation, OSPO employs potential-based reward shaping via Shapley-Owen attributions to assign segment-level credit while preserving the optimal policy, learning directly from task feedback without parametric value models. By forming coalitions of semantically coherent units (phrases describing product attributes or sentences capturing preferences), OSPO identifies which response parts drive performance. Experiments on Amazon ESCI and H&M Fashion datasets show consistent gains over baselines, with notable test-time robustness to out-of-distribution retrievers unseen during training.
- Abstract(参考訳): 大規模な言語モデルは、パーソナライズされたレコメンデーションタスクのための強化学習を通じて、ますます訓練されている。
このギャップは、モデルが具体的真理ラベルなしで不特定言語から潜在ユーザ意図を推論しなければならない場合に特に問題となる。
我々は,トークンによる成果への限界貢献に基づいて,シーケンスレベルのメリットを再分配するフレームワークであるOwen-Shapley Policy Optimization (OSPO)を紹介した。
付加的な計算を必要とするバリューモデルベースの方法とは異なり、OSPOはShapley-Owen属性による潜在的報酬のシェーピングを使用して、最適ポリシーを維持しながらセグメントレベルのクレジットを割り当て、パラメトリックなバリューモデルなしでタスクフィードバックから直接学習する。
セマンティック・コヒーレントなユニット(製品属性や好みをキャプチャする文を記述したフレーズ)の連合を形成することで、OSPOはどの応答部がパフォーマンスを駆動するかを識別する。
Amazon ESCIとH&M Fashionデータセットの実験は、ベースラインよりも一貫した増加を示し、トレーニング中に見つからないアウト・オブ・ディストリビューション・レトリバーに対する顕著なテスト時の堅牢性を示している。
関連論文リスト
- MAESTRO: Meta-learning Adaptive Estimation of Scalarization Trade-offs for Reward Optimization [56.074760766965085]
大規模言語モデル(LLM)の整合性のための効率的なパラダイムとしてグループ相対政策最適化が登場している。
我々は,報酬スカラー化を動的潜在ポリシーとして扱い,モデルの終端隠蔽状態を意味的ボトルネックとして活用するMAESTROを提案する。
本稿では,軽量コンダクタネットワークがメタリワード信号としてグループ相対的優位性を生かしてポリシと共進化する,双方向最適化フレームワークにおけるコンテキスト的帯域幅問題としてこれを定式化する。
論文 参考訳(メタデータ) (2026-01-12T05:02:48Z) - Principled RL for Diffusion LLMs Emerges from a Sequence-Level Perspective [85.06838178922791]
強化学習(RL)は自己回帰言語モデルに非常に効果的であることが証明されている。
しかし、これらの手法を拡散大言語モデル(dLLM)に適応させることは、根本的な課題を提起する。
本稿では,全シーケンス生成を単一アクションとして扱い,ELBOを抽出可能なシークエンスレベル確率プロキシとして利用する,原則的RLフレームワークを提案する。
論文 参考訳(メタデータ) (2025-12-03T13:05:32Z) - GEM: Generative Entropy-Guided Preference Modeling for Few-shot Alignment of LLMs [5.1816417820270075]
本稿では,大規模言語モデル(LLM)のためのジェネレーティブエントロピー誘導選好モデリング手法GEMを提案する。
選好データに基づいて差別的な報酬モデルを訓練する代わりに、LLMを直接訓練してクローズドループ最適化アーキテクチャを内部化する。
一般的なベンチマークとドメイン固有のタスクの実験は、GEMが数ショットの選好データで大幅な改善を達成していることを示している。
論文 参考訳(メタデータ) (2025-11-17T06:04:47Z) - Information Gain-based Policy Optimization: A Simple and Effective Approach for Multi-Turn LLM Agents [28.145430029174577]
大規模言語モデル(LLM)ベースのエージェントは、外部環境と対話する能力を高めるために強化学習(RL)でますます訓練されている。
既存のアプローチは通常、最終回答でのみ提供される結果に基づく報酬に依存します。
本稿では,情報ゲインに基づくポリシー最適化(IGPO)を提案する。
論文 参考訳(メタデータ) (2025-10-16T17:59:32Z) - Shaping Explanations: Semantic Reward Modeling with Encoder-Only Transformers for GRPO [0.0]
グループ相対政策最適化フレームワークにおいて,報酬形成のための新たなアプローチを導入する。
私たちの中心的な貢献は、セマンティック報酬モデルとして、小型で効率的なエンコーダのみのトランスフォーマーを使用することです。
本手法は,イタリア医学部入学試験のモデルを訓練する作業に適用する。
論文 参考訳(メタデータ) (2025-09-16T13:39:29Z) - PITA: Preference-Guided Inference-Time Alignment for LLM Post-Training [9.093854840532062]
PITAはLLMのトークン生成に直接好みフィードバックを統合する新しいフレームワークである。
PITAは、微調整をせずに、推論時にトークン確率を変更するための、小さな嗜好に基づくガイダンスポリシーを学習する。
我々は,数学的推論や感情分類など,多種多様なタスクにまたがるPITAを評価する。
論文 参考訳(メタデータ) (2025-07-26T21:46:32Z) - Entropy-Regularized Token-Level Policy Optimization for Language Agent Reinforcement [67.1393112206885]
大規模言語モデル(LLM)は、対話的な意思決定タスクにおいてインテリジェントなエージェントとして期待されている。
本稿では,トークンレベルでのLLMの最適化に適したエントロピー拡張RL法である,エントロピー正規化トークンレベル最適化(ETPO)を導入する。
我々は,データサイエンスコード生成を多段階対話型タスクのシリーズとしてモデル化したシミュレーション環境におけるETPOの有効性を評価する。
論文 参考訳(メタデータ) (2024-02-09T07:45:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。