論文の概要: Provable and Practical In-Context Policy Optimization for Self-Improvement
- arxiv url: http://arxiv.org/abs/2603.01335v1
- Date: Mon, 02 Mar 2026 00:21:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.631899
- Title: Provable and Practical In-Context Policy Optimization for Self-Improvement
- Title(参考訳): 自己改善のための確率的かつ実践的なインコンテキストポリシー最適化
- Authors: Tianrun Yu, Yuxiao Yang, Zhaoyang Wang, Kaixiang Zhao, Porter Jenkins, Xuchao Zhang, Chetan Bansal, Huaxiu Yao, Weitong Zhang,
- Abstract要約: 本研究では,モデルが推論における複数ラウンドの自己回帰によって解答を改善するテスト時間スケーリングについて検討する。
In-Context Policy Optimization (ICPO)を導入し、エージェントはパラメータを変更することなく、自己評価または外部から観察された報酬を用いて、その応答を文脈で最適化する。
提案する最小エントロピーICPO(ME-ICPO, Minimum-Entropy ICPO)は、その応答と自己評価報酬を反復的に利用して、推論時にその応答を洗練する実用的なアルゴリズムである。
- 参考スコア(独自算出の注目度): 49.670847804409874
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We study test-time scaling, where a model improves its answer through multi-round self-reflection at inference. We introduce In-Context Policy Optimization (ICPO), in which an agent optimizes its response in context using self-assessed or externally observed rewards without modifying its parameters. To explain this ICPO process, we theoretically show that with sufficient pretraining under a novel Fisher-weighted logit-matching objective, a single-layer linear self-attention model can provably imitate policy-optimization algorithm for linear bandits. Building on this theory, we propose Minimum-Entropy ICPO (ME-ICPO), a practical algorithm that iteratively uses its response and self-assessed reward to refine its response in-context at inference time. By selecting the responses and their rewards with minimum entropy, ME-ICPO ensures the robustness of the self-assessed rewards via majority voting. Across standard mathematical reasoning tasks, ME-ICPO attains competitive, top-tier performance while keeping inference costs affordable compared with other inference-time algorithms. Overall, ICPO provides a principled understanding of self-reflection in LLMs and yields practical benefits for test-time scaling for mathematical reasoning.
- Abstract(参考訳): 本研究では,モデルが推論における複数ラウンドの自己回帰によって解答を改善するテスト時間スケーリングについて検討する。
In-Context Policy Optimization (ICPO)を導入し、エージェントはパラメータを変更することなく、自己評価または外部観察された報酬を用いて、その応答を文脈で最適化する。
このICPOプロセスを説明するために、新しいFisher-weighted logit-matching目標の下で十分な事前訓練を行うことで、単層線形自己アテンションモデルが線形帯域に対するポリシー最適化アルゴリズムを確実に模倣できることを理論的に示す。
この理論に基づいて,最小エントロピーICPO (ME-ICPO) を提案する。
反応と報酬を最小エントロピーで選択することで、ME-ICPOは多数決による自己評価報酬の堅牢性を保証する。
標準的な数学的推論タスク全体にわたって、ME-ICPOは、他の推論時間アルゴリズムと比較して、推論コストを安価に保ちながら、競争力のあるトップレベルのパフォーマンスを達成する。
全体として、ICPO は LLM における自己回帰の原理的な理解を提供し、数学的推論のためのテスト時間スケーリングの実践的な利点をもたらす。
関連論文リスト
- ICPO: Intrinsic Confidence-Driven Group Relative Preference Optimization for Efficient Reinforcement Learning [17.98065634130798]
固有信頼駆動型グループ相対選好最適化法(ICPO)を提案する。
ICPOは、複数の応答の相対生成確率を同一の入力プロンプトで比較することにより、各応答に対する優先優位スコアを算出する。
優先的優位性スコアは、粗大な報酬や報奨ノイズの問題を緩和するだけでなく、過度に信頼された誤りを効果的に抑制することを発見した。
論文 参考訳(メタデータ) (2025-11-26T03:10:15Z) - Latent Chain-of-Thought for Visual Reasoning [53.541579327424046]
大型視覚言語モデル(LVLM)の解釈可能性および信頼性向上には,チェーン・オブ・シント(CoT)推論が不可欠である
我々は,LVLMにおける推論を後部推論として再構成し,償却変分推論に基づくスケーラブルなトレーニングアルゴリズムを提案する。
提案手法は,7つの推論ベンチマークにおいて,最先端のLVLMを強化することを実証的に実証する。
論文 参考訳(メタデータ) (2025-10-27T23:10:06Z) - Learning to Refine: Self-Refinement of Parallel Reasoning in LLMs [102.48588475875749]
本稿では,新しい並列テスト時間スケーリングフレームワークであるGenerative Self-Refinement (GSR)を紹介する。
GSRは一連の候補応答を並列に生成し、その後自己精製を行い、新しい優れた解を合成する。
提案手法は,5つの数学ベンチマークにおいて,最先端性能を実現する。
論文 参考訳(メタデータ) (2025-08-27T06:51:48Z) - Truncated Proximal Policy Optimization [43.965892659920364]
Truncated Proximal Policy Optimization (T-PPO)は、ポリシー更新と長さ制限された応答生成を合理化することで、トレーニング効率を向上させる。
不完全な応答から導かれる利点推定のための拡張一般化アドバンテージ推定(EGAE)を提案する。
我々は,32Bベースモデルを用いたAIME 2024におけるT-PPOの有効性と有効性を示した。
論文 参考訳(メタデータ) (2025-06-18T01:21:38Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - Optimizing Anytime Reasoning via Budget Relative Policy Optimization [70.32755424260336]
我々は,任意の推論性能を最適化する新しいフレームワークであるAnytimeReasonerを提案する。
従来の分布からサンプルトークンの予算に適合するように、完全な思考プロセスを切り離します。
次に、累積報酬を最大化するために、分割された方法で思考と要約ポリシーを最適化する。
論文 参考訳(メタデータ) (2025-05-19T17:58:44Z) - Provably Mitigating Overoptimization in RLHF: Your SFT Loss is Implicitly an Adversarial Regularizer [52.09480867526656]
人間の嗜好を学習する際の分布変化と不確実性の一形態として,不一致の原因を同定する。
過度な最適化を緩和するために、まず、逆選択された報酬モデルに最適なポリシーを選択する理論アルゴリズムを提案する。
報奨モデルとそれに対応する最適ポリシーの等価性を用いて、優先最適化損失と教師付き学習損失を組み合わせた単純な目的を特徴とする。
論文 参考訳(メタデータ) (2024-05-26T05:38:50Z) - $i$REPO: $i$mplicit Reward Pairwise Difference based Empirical Preference Optimization [12.266207199002604]
大規模言語モデル(LLM)は、人間の期待から外れた出力を生成することがある。
経験的選好最適化に暗黙的逆差分回帰を利用する,$i$REPO という新しいフレームワークを提案する。
i$REPOは, ソフトラベル, 自己生成応答, 経験的AIアノテータのロジットを用いて, 効果的に自己アライメントを実現することを示す。
論文 参考訳(メタデータ) (2024-05-24T05:42:11Z) - Overcoming Reward Overoptimization via Adversarial Policy Optimization with Lightweight Uncertainty Estimation [46.61909578101735]
AdvPO(Adversarial Policy Optimization)は、人間からの強化学習における報酬過度最適化の問題に対する新しい解決策である。
本稿では,報酬モデルの最後の層埋め込みにのみ依存して,報酬の不確実性を定量化する軽量な手法を提案する。
論文 参考訳(メタデータ) (2024-03-08T09:20:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。