論文の概要: Fisher Decorator: Refining Flow Policy via A Local Transport Map
- arxiv url: http://arxiv.org/abs/2604.17919v1
- Date: Mon, 20 Apr 2026 07:54:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-21 21:52:52.754389
- Title: Fisher Decorator: Refining Flow Policy via A Local Transport Map
- Title(参考訳): Fisher Decorator:ローカルトランスポートマップによるフローポリシーの精錬
- Authors: Xiaoyuan Cheng, Haoyu Wang, Wenxuan Yuan, Ziyan Wang, Zonghao Chen, Li Zeng, Zhuo Sun,
- Abstract要約: フローベースオフライン強化学習(RL)は,フローマッチングによるポリシのパラメータ化によって,高い性能を実現している。
既存のフローポリシーは、2-ワッサーシュタイン距離(W$)の上限として$L$正規化を解釈する。
行動ポリシー多様体は本質的に異方性を持ち、$L$正規化は等方性と密度非感性である。
誘導密度変換を解析することにより、フィッシャー情報行列が支配するKL制約対象の局所2次近似を導出する。
- 参考スコア(独自算出の注目度): 22.885775277923106
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in flow-based offline reinforcement learning (RL) have achieved strong performance by parameterizing policies via flow matching. However, they still face critical trade-offs among expressiveness, optimality, and efficiency. In particular, existing flow policies interpret the $L_2$ regularization as an upper bound of the 2-Wasserstein distance ($W_2$), which can be problematic in offline settings. This issue stems from a fundamental geometric mismatch: the behavioral policy manifold is inherently anisotropic, whereas the $L_2$ (or upper bound of $W_2$) regularization is isotropic and density-insensitive, leading to systematically misaligned optimization directions. To address this, we revisit offline RL from a geometric perspective and show that policy refinement can be formulated as a local transport map: an initial flow policy augmented by a residual displacement. By analyzing the induced density transformation, we derive a local quadratic approximation of the KL-constrained objective governed by the Fisher information matrix, enabling a tractable anisotropic optimization formulation. By leveraging the score function embedded in the flow velocity, we obtain a corresponding quadratic constraint for efficient optimization. Our results reveal that the optimality gap in prior methods arises from their isotropic approximation. In contrast, our framework achieves a controllable approximation error within a provable neighborhood of the optimal solution. Extensive experiments demonstrate state-of-the-art performance across diverse offline RL benchmarks. See project page: https://github.com/ARC0127/Fisher-Decorator.
- Abstract(参考訳): フローベースオフライン強化学習(RL)の最近の進歩は,フローマッチングによるパラメータ化政策により,高い性能を達成している。
しかし、表現力、最適性、効率性の間には、依然として重要なトレードオフに直面している。
特に、既存のフローポリシーでは、$L_2$正規化を2-ワッサーシュタイン距離(W_2$)の上限として解釈している。
行動ポリシー多様体は本質的に異方的であるのに対し、$L_2$(または$W_2$の上界)正則化は等方的で密度に敏感であり、体系的に不整合な最適化方向をもたらす。
これを解決するために、幾何学的観点からオフラインRLを再検討し、ポリシーの洗練を局所輸送マップとして定式化できることを示し、残留変位によって拡張された初期フローポリシーを示す。
誘導密度変換を解析することにより、フィッシャー情報行列が支配するKL制約対象の局所2次近似を導出し、トラクタブルな異方性最適化の定式化を可能にする。
フロー速度に埋め込まれたスコア関数を利用することで,効率のよい2次制約を求める。
以上の結果から,従来の手法の最適性ギャップは等方性近似から生じることが明らかとなった。
対照的に,本フレームワークは最適解の証明可能な近傍で制御可能な近似誤差を実現する。
大規模な実験では、さまざまなオフラインRLベンチマークで最先端のパフォーマンスが実証されている。
プロジェクトページは、https://github.com/ARC0127/Fisher-Decoratorを参照。
関連論文リスト
- Neural Network Pruning via QUBO Optimization [0.08796261172196741]
グローバル最適化による推定の重要性を橋渡しするハイブリッドQUBOフレームワークを提案する。
本定式化では,2次項におけるデータ駆動的類似性を活用しながら,勾配認識感度指標を線形項に統合する。
SIDD画像復調データセットの実験では、提案されたハイブリッドQUBOは、グリーディ・テイラープルーニングと従来のL1ベースのQUBOの両方で著しく優れていた。
論文 参考訳(メタデータ) (2026-04-07T13:16:40Z) - FISMO: Fisher-Structured Momentum-Orthogonalized Optimizer [30.184978506988767]
我々は、フィッシャー情報幾何を通して異方性ニューロトロピックな幾何情報を含むFISMOを紹介する。
FISMOは、確立されたベースラインよりも優れた効率と最終性能を達成する。
論文 参考訳(メタデータ) (2026-01-29T14:05:04Z) - Stable Nonconvex-Nonconcave Training via Linear Interpolation [51.668052890249726]
本稿では,ニューラルネットワークトレーニングを安定化(大規模)するための原理的手法として,線形アヘッドの理論解析を提案する。
最適化過程の不安定性は、しばしば損失ランドスケープの非単調性によって引き起こされるものであり、非拡張作用素の理論を活用することによって線型性がいかに役立つかを示す。
論文 参考訳(メタデータ) (2023-10-20T12:45:12Z) - Proximal Point Imitation Learning [48.50107891696562]
我々は、無限地平線模倣学習のための厳密な効率保証を備えた新しいアルゴリズムを開発した。
我々は、最適化、特に近点法(PPM)と双対平滑化から古典的ツールを活用する。
線形関数とニューラルネットワーク関数の近似の双方に対して、説得力のある経験的性能を実現する。
論文 参考訳(メタデータ) (2022-09-22T12:40:21Z) - On the Optimization Landscape of Dynamic Output Feedback: A Case Study
for Linear Quadratic Regulator [12.255864026960403]
動的コントローラの座標変換によってdLQRコストがどう変化するかを示し、次に与えられた可観測安定化コントローラの最適変換を導出する。
これらの結果は、部分的に観測された情報を含む一般的な意思決定問題に対する効率的なアルゴリズムの設計に光を当てた。
論文 参考訳(メタデータ) (2022-09-12T06:43:35Z) - Optimistic Policy Optimization is Provably Efficient in Non-stationary MDPs [113.8752163061151]
非定常線形カーネルマルコフ決定過程(MDP)におけるエピソード強化学習(RL)の研究
線形最適化アンダーライン最適化アルゴリズム(PROPO)を提案する。
PROPOはスライディングウィンドウベースのポリシー評価と周期的リスタートベースのポリシー改善の2つのメカニズムを特徴としている。
論文 参考訳(メタデータ) (2021-10-18T02:33:20Z) - Iterative Amortized Policy Optimization [147.63129234446197]
政策ネットワークは、継続的制御のための深層強化学習(RL)アルゴリズムの中心的な特徴である。
変分推論の観点からは、ポリシーネットワークは、ポリシー分布を直接ではなく、ネットワークパラメータを最適化する、テキスト化最適化の一形態である。
我々は,反復的アモート化ポリシ最適化により,ベンチマーク連続制御タスクの直接アモート化よりも性能が向上することが実証された。
論文 参考訳(メタデータ) (2020-10-20T23:25:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。