論文の概要: ISEP: Implicit Support Expansion for Offline Reinforcement Learning via Stochastic Policy Optimization
- arxiv url: http://arxiv.org/abs/2605.18320v1
- Date: Mon, 18 May 2026 12:39:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:49.608641
- Title: ISEP: Implicit Support Expansion for Offline Reinforcement Learning via Stochastic Policy Optimization
- Title(参考訳): ISEP:確率的政策最適化によるオフライン強化学習へのインシシシトサポート拡張
- Authors: Yifei Chen, Shaoqin Zhu, Xiaoqiang Ji,
- Abstract要約: 政策最適化(ISEP)によるインプシットサポート拡張
ISEPは、ディストリビューションデータとポリシーサンプルの間の値関数を使用して、実行可能なアクションサポートを暗黙的に拡張する。
条件付きフローマッチング。
- 参考スコア(独自算出の注目度): 6.976223727680188
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning methods typically enforce strict constraints to ensure safety; yet this rigidity often prevents the discovery of optimal behaviors outside the immediate support of the behavior policy. To address this, we propose Implicit Support Expansion via stochastic Policy optimization (ISEP), which leverages a value function interpolated between in-distribution data and policy samples to implicitly expand the feasible action support. This mechanism "densifies" high-reward regions, creating a navigable path for policy improvement while theoretically guaranteeing bounded value error. However, optimizing against this expanded support creates a multimodal landscape where standard deterministic averaging leads to mode collapse and invalid actions. ISEP mitigates this via a stochastic action selection strategy, optimizing the policy by stochastically alternating between conservative cloning and optimistic expansion signals. We instantiate this framework as ISEP-FM using Conditional Flow Matching utilizing classifier-free guidance to effectively capture the interpolated value signal.
- Abstract(参考訳): オフライン強化学習法は通常、安全を確保するために厳格な制約を課すが、この剛性は行動方針の即時支持以外の最適な行動の発見を妨げることが多い。
そこで本研究では,確率的ポリシ最適化(ISEP)によるImplicit Support Expansionを提案する。
このメカニズムは高逆領域を「同定」し、理論的には有界値誤差を保証しながら、政策改善のためのナビゲート可能な経路を作成する。
しかし、この拡張サポートに対する最適化は、標準決定論的平均化がモード崩壊と無効なアクションをもたらすマルチモーダルな景観を生み出す。
ISEPは、これを確率的行動選択戦略によって緩和し、保守的なクローンと楽観的な拡張シグナルを確率的に交互に交互に行い、ポリシーを最適化する。
我々はこのフレームワークを条件付きフローマッチングを用いてISEP-FMとしてインスタンス化する。
関連論文リスト
- Entropy-Regularized Adjoint Matching for Offline Reinforcement Learning [12.008878527093364]
連続フローの定式化における制限に対処する統一フレームワークであるtextitMaximum Entropy Adjoint Matching (ME-AM) を提案する。
ME-AMは,(1) オフラインデータセットからの最適ポリシー抽出を容易にするために,人気バイアスに付随するミラー・ディフレッシュ・エントロピー・オブジェクト,(2) テキスト・ミクチャー・ビヘイビア,(2) 幾何学的サポートを広げて分布外高次領域を包含する,という2つのメカニズムを取り入れている。
論文 参考訳(メタデータ) (2026-05-07T12:47:55Z) - Policy Regularized Distributionally Robust Markov Decision Processes with Linear Function Approximation [10.35045003737115]
分散シフトによる意思決定は、トレーニングとデプロイメント環境が異なる強化学習(RL)における中心的な課題である。
本稿では,モデルのないオンラインポリシー最適化手法DR-RPOを提案する。
DR-RPO は,ロバストな RL における準最適境界とサンプル効率を実現し,値に基づく手法の性能に適合することを示す。
論文 参考訳(メタデータ) (2025-10-16T02:56:58Z) - EXPO: Stable Reinforcement Learning with Expressive Policies [74.30151915786233]
2つのパラメータ化ポリシーで値の最大化を実現するために,サンプル効率のよいオンライン強化学習アルゴリズムを提案する。
提案手法は, 従来手法に比べて試料効率を最大2~3倍向上させる。
論文 参考訳(メタデータ) (2025-07-10T17:57:46Z) - Mirror Descent Policy Optimisation for Robust Constrained Markov Decision Processes [12.666842349236788]
本稿では,ロバストなマルコフ決定過程に対するミラー降下ポリシーの最適化について述べる。
政策勾配法を用いて、ラグランジアン上のポリシー(最大値)と遷移カーネル(最小値)の両方を最適化する。
実験は、制約付きおよび制約なし最適化におけるミラー降下ポリシー最適化の利点を確認する。
論文 参考訳(メタデータ) (2025-06-29T09:55:52Z) - Robust Offline Reinforcement Learning with Linearly Structured f-Divergence Regularization [11.739526562075339]
ロバスト正規化マルコフ決定過程 (RRMDP) は、値関数の遷移力学に正規化を加えることで、ダイナミクスシフトに頑健なポリシーを学ぶために提案される。
本稿では,リニア関数近似を用いたロバスト正規化ペシミスティック値反復法 (R2PVI) アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-11-27T18:57:03Z) - Constraint-Generation Policy Optimization (CGPO): Nonlinear Programming for Policy Optimization in Mixed Discrete-Continuous MDPs [21.246169498568342]
CGPOは、表現力のある非線形力学を持つ多くのDC-MDPに対して、無限の範囲の初期状態に対する有界なポリシーエラーを保証する。
CGPOは、最悪の状態軌跡を生成して、政策上の欠陥を診断し、最適な行動の反実的な説明を提供する。
在庫管理,貯水池管理,物理制御など,各種分野におけるCGPOの適用性について実験的に検証した。
論文 参考訳(メタデータ) (2024-01-20T07:12:57Z) - Supported Trust Region Optimization for Offline Reinforcement Learning [59.43508325943592]
本稿では,行動方針の支持範囲内で制約された政策を用いて信頼地域政策の最適化を行う,信頼地域最適化(STR)を提案する。
近似やサンプリング誤差を仮定すると、STRはデータセットの最適サポート制約ポリシーに収束するまで厳密なポリシー改善を保証する。
論文 参考訳(メタデータ) (2023-11-15T13:16:16Z) - Trust-Region-Free Policy Optimization for Stochastic Policies [60.52463923712565]
本研究では,政策に対する信頼領域の制約が,基礎となるモノトニック改善の保証を損なうことなく,信頼領域のない制約によって安全に置き換えられることを示す。
我々は,TREFree(Trust-Region-Free Policy Optimization)と呼ばれるアルゴリズムを,信頼領域の制約が不要であるとして明示する。
論文 参考訳(メタデータ) (2023-02-15T23:10:06Z) - Bounded Robustness in Reinforcement Learning via Lexicographic
Objectives [54.00072722686121]
強化学習における政策の堅牢性は、いかなるコストでも望ましいものではないかもしれない。
本研究では,任意の観測ノイズに対して,政策が最大限に頑健になる方法について検討する。
本稿では,どのような政策アルゴリズムにも適用可能なロバストネス誘導方式を提案する。
論文 参考訳(メタデータ) (2022-09-30T08:53:18Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z) - Stable Policy Optimization via Off-Policy Divergence Regularization [50.98542111236381]
信頼地域政策最適化(TRPO)とPPO(Pximal Policy Optimization)は、深層強化学習(RL)において最も成功した政策勾配アプローチの一つである。
本稿では, 連続的な政策によって引き起こされる割引状態-行動訪問分布を, 近接項で抑制し, 政策改善を安定化させる新しいアルゴリズムを提案する。
提案手法は, ベンチマーク高次元制御タスクの安定性と最終的な性能向上に有効である。
論文 参考訳(メタデータ) (2020-03-09T13:05:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。