論文の概要: Success Conditioning as Policy Improvement: The Optimization Problem Solved by Imitating Success
- arxiv url: http://arxiv.org/abs/2601.18175v1
- Date: Mon, 26 Jan 2026 05:54:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:08.696123
- Title: Success Conditioning as Policy Improvement: The Optimization Problem Solved by Imitating Success
- Title(参考訳): 政策改善としての成功条件付け : 成功を省くことで解決した最適化問題
- Authors: Daniel Russo,
- Abstract要約: 軌道を収集する成功条件付けは,望ましい結果を得たものを識別し,軌道に沿う動作を模倣するためにポリシーを更新する。
我々はこの理論をリターンしきい値付け(return thresholding)の一般的な実践に適用し、これは改善を増幅するが、真の目的との潜在的なミスアライメントのコストがかかることを示す。
- 参考スコア(独自算出の注目度): 3.362633173562401
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: A widely used technique for improving policies is success conditioning, in which one collects trajectories, identifies those that achieve a desired outcome, and updates the policy to imitate the actions taken along successful trajectories. This principle appears under many names -- rejection sampling with SFT, goal-conditioned RL, Decision Transformers -- yet what optimization problem it solves, if any, has remained unclear. We prove that success conditioning exactly solves a trust-region optimization problem, maximizing policy improvement subject to a $χ^2$ divergence constraint whose radius is determined automatically by the data. This yields an identity: relative policy improvement, the magnitude of policy change, and a quantity we call action-influence -- measuring how random variation in action choices affects success rates -- are exactly equal at every state. Success conditioning thus emerges as a conservative improvement operator. Exact success conditioning cannot degrade performance or induce dangerous distribution shift, but when it fails, it does so observably, by hardly changing the policy at all. We apply our theory to the common practice of return thresholding, showing this can amplify improvement, but at the cost of potential misalignment with the true objective.
- Abstract(参考訳): 政策を改善するための広く使われている技術は成功条件付け(英語版)であり、そこでは軌道を収集し、望ましい結果を達成するものを特定し、軌道に沿って取られた行動を模倣するためにポリシーを更新する。
この原則は多くの名前(SFTによる拒絶サンプリング、目標条件付きRL、決定変換器など)の下に現れている。
成功条件付けは信頼領域最適化問題を正確に解き、データによって半径が自動的に決定される分散制約を条件として、政策改善を最大化する。
相対的な政策改善、政策変更の大きさ、そして私たちがアクション影響と呼ぶ量 -- アクション選択のランダムな変動が成功率にどのように影響するかを測定する -- は、すべての州で完全に等しい。
したがって、成功条件付けは保守的な改善演算子として現れる。
厳密な成功条件付けは性能を低下させることも、危険な分散シフトを引き起こすこともできないが、失敗すると、ポリシーをほとんど変更せずに、観察可能となる。
我々はこの理論をリターンしきい値付け(return thresholding)の一般的な実践に適用し、これは改善を増幅するが、真の目的との潜在的なミスアライメントのコストがかかることを示す。
関連論文リスト
- Beating the Winner's Curse via Inference-Aware Policy Optimization [26.01488014918074]
一般的なアプローチは、機械学習モデルをトレーニングして反現実的な結果を予測し、予測された客観的価値を最適化するポリシーを選択することである。
提案手法は,政策を下流でどのように評価するかを考慮し,政策最適化を改良する,推論対応政策最適化と呼ばれる新しい戦略を提案する。
論文 参考訳(メタデータ) (2025-10-20T23:28:12Z) - Diffusion-based Reinforcement Learning via Q-weighted Variational Policy Optimization [55.97310586039358]
拡散モデルは強化学習(Reinforcement Learning, RL)において、その強力な表現力と多モード性に対して広く注目を集めている。
モデルなし拡散に基づくオンラインRLアルゴリズムQ-weighted Variational Policy Optimization (QVPO)を提案する。
具体的には、ある条件下でのオンラインRLにおける政策目標の厳密な下限を証明できるQ重み付き変動損失を導入する。
また,オンラインインタラクションにおける拡散ポリシのばらつきを低減し,サンプル効率を向上させるための効率的な行動ポリシーも開発している。
論文 参考訳(メタデータ) (2024-05-25T10:45:46Z) - Maximizing the Success Probability of Policy Allocations in Online
Systems [5.485872703839928]
本稿では,個々の入札要求ではなく,ユーザタイムラインのレベルでの問題を検討する。
ユーザに対してポリシーを最適に割り当てるために、典型的な複数の処理割り当て手法は、knapsackのような問題を解決する。
本稿では,政策アロケーションの探索を目的としたSuccessProMaxアルゴリズムについて紹介する。
論文 参考訳(メタデータ) (2023-12-26T10:55:33Z) - IOB: Integrating Optimization Transfer and Behavior Transfer for
Multi-Policy Reuse [50.90781542323258]
強化学習(RL)エージェントは、ソースポリシーからの知識を関連する目標タスクに転送することができる。
従来手法では,階層的なポリシやソースポリシの値関数の見積など,新たなコンポーネントが導入されていた。
本稿では,余分なコンポーネントを訓練せずにソースポリシーを選択する新しい転送RL法を提案する。
論文 参考訳(メタデータ) (2023-08-14T09:22:35Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Beyond the Policy Gradient Theorem for Efficient Policy Updates in
Actor-Critic Algorithms [10.356356383401566]
強化学習では、ある状態における最適な行動は、その後の状態における政策決定に依存する。
政策勾配定理は, 目標値に対する構造対称性のため, 未学習の遅い政策更新を規定する。
我々は、その欠陥を欠いたポリシー更新を導入し、古典的な仮定で$mathcalO(t-1)$で、グローバル最適性への収束の保証を証明した。
論文 参考訳(メタデータ) (2022-02-15T15:04:10Z) - Chance Constrained Policy Optimization for Process Control and
Optimization [1.4908563154226955]
1) プラントモデルミスマッチ, 2) プロセス障害, 3) 安全な運転の制約が, 化学プロセスの最適化と制御に影響を及ぼす。
本研究では,確率の高い連立確率制約の満足度を保証できる確率制約付きポリシ最適化アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-30T14:20:35Z) - BRPO: Batch Residual Policy Optimization [79.53696635382592]
バッチ強化学習では、学習したポリシーが行動(データ生成)ポリシーに近いように制約されることがよくある。
本稿では,学習方針の逸脱が国家の行動に依存した残留政策を提案する。
我々は,ポリシーと許容偏差の両方を学習し,政策性能の低い境界を共同で最大化する新しいRL法BRPOを導出する。
論文 参考訳(メタデータ) (2020-02-08T01:59:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。