論文の概要: Stationary Reweighting Yields Local Convergence of Soft Fitted Q-Iteration
- arxiv url: http://arxiv.org/abs/2512.23927v1
- Date: Tue, 30 Dec 2025 00:58:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-01 23:27:28.250026
- Title: Stationary Reweighting Yields Local Convergence of Soft Fitted Q-Iteration
- Title(参考訳): ソフトフィットQ-Iterationの局所収束性に及ぼす定常再加重率の影響
- Authors: Lars van der Laan, Nathan Kallus,
- Abstract要約: そこで本研究では, 関数近似および分布シフトの下で, 適合Q-定数とそのエントロピー規則化された変種であるソフトFQIが不適切に振る舞うことを示す。
本稿では,現在の方針の定常分布を用いて,各回帰更新を重み付けする静止重み付きソフトFQIを紹介する。
解析の結果,ソフトマックス温度を徐々に下げることで,地球規模の収束が回復する可能性が示唆された。
- 参考スコア(独自算出の注目度): 40.322273308230606
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fitted Q-iteration (FQI) and its entropy-regularized variant, soft FQI, are central tools for value-based model-free offline reinforcement learning, but can behave poorly under function approximation and distribution shift. In the entropy-regularized setting, we show that the soft Bellman operator is locally contractive in the stationary norm of the soft-optimal policy, rather than in the behavior norm used by standard FQI. This geometric mismatch explains the instability of soft Q-iteration with function approximation in the absence of Bellman completeness. To restore contraction, we introduce stationary-reweighted soft FQI, which reweights each regression update using the stationary distribution of the current policy. We prove local linear convergence under function approximation with geometrically damped weight-estimation errors, assuming approximate realizability. Our analysis further suggests that global convergence may be recovered by gradually reducing the softmax temperature, and that this continuation approach can extend to the hardmax limit under a mild margin condition.
- Abstract(参考訳): FQI(Fitted Q-iteration)と、そのエントロピー規則化された変種であるソフトFQIは、価値に基づくモデルなしオフライン強化学習の中心的なツールであるが、関数近似や分布シフトの下では振る舞うことができない。
エントロピー規則化設定において、ソフトベルマン作用素は、標準FQIの行動規範ではなく、ソフト最適ポリシーの定常ノルムにおいて局所的に収縮的であることを示す。
この幾何学的ミスマッチは、ベルマン完全性の欠如における関数近似によるソフトQ-イテレーションの不安定性を説明する。
縮退を回復するために,現在の方針の定常分布を用いて各回帰更新を重み付けする固定重み付きソフトFQIを導入する。
幾何的に減衰した重み推定誤差を用いて関数近似の下での局所線型収束を近似的実現可能性として証明する。
さらに, ソフトマックス温度を緩やかに下げることで, 大域収束が回復し, この継続法は軽度の限界条件下でハードマックス限界にまで拡張可能であることを示唆した。
関連論文リスト
- Equilibrium Propagation Without Limits [0.0]
我々は,nudged と free phase のヘルムホルツ自由エネルギーの差の勾配が,まさに期待される局所エネルギー微分の差であることを示した。
これは、古典的なContrastive Hebbian Learning Updateを、任意の有限ヌーディングのための正確な勾配推定器として検証する。
論文 参考訳(メタデータ) (2025-11-27T01:55:26Z) - An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model [8.95720650633184]
機械学習において、動的選択(DDC)モデル(オフライン最大エントロピー正規化逆強化学習(オフラインMaxEnt-IRL))を推定する問題について検討する。
目的は、オフラインの振舞いデータからエージェントの振舞いを管理する$Q*$関数をリカバリすることである。
線形パラメータ化報酬の制限的仮定を使わずにこれらの問題を解くための大域収束勾配法を提案する。
論文 参考訳(メタデータ) (2025-02-19T22:22:20Z) - Taming Nonconvex Stochastic Mirror Descent with General Bregman
Divergence [25.717501580080846]
本稿では、現代の非最適化設定における勾配フォワードミラー(SMD)の収束を再考する。
トレーニングのために,線形ネットワーク問題に対する確率収束アルゴリズムを開発した。
論文 参考訳(メタデータ) (2024-02-27T17:56:49Z) - Distributionally Time-Varying Online Stochastic Optimization under
Polyak-{\L}ojasiewicz Condition with Application in Conditional Value-at-Risk
Statistical Learning [9.749745086213215]
オンライン最適化のレンズによる時間変化分布に続き、一連の最適化問題を考察する。
本研究では,CVaR学習問題に適用可能であることを示す。
論文 参考訳(メタデータ) (2023-09-18T00:47:08Z) - Benign overfitting and adaptive nonparametric regression [71.70323672531606]
本研究では,データポイントを高い確率で補間する連続関数である推定器を構築する。
我々は未知の滑らかさに適応してH"古いクラスのスケールにおいて平均2乗リスクの下で最小値の最適速度を得る。
論文 参考訳(メタデータ) (2022-06-27T14:50:14Z) - On the Convergence of Stochastic Extragradient for Bilinear Games with
Restarted Iteration Averaging [96.13485146617322]
本稿では, ステップサイズが一定であるSEG法の解析を行い, 良好な収束をもたらす手法のバリエーションを示す。
平均化で拡張した場合、SEGはナッシュ平衡に確実に収束し、スケジュールされた再起動手順を組み込むことで、その速度が確実に加速されることを証明した。
論文 参考訳(メタデータ) (2021-06-30T17:51:36Z) - Linear Convergence of Entropy-Regularized Natural Policy Gradient with
Linear Function Approximation [30.02577720946978]
線形関数近似を用いたエントロピー規則化NPGの有限時間収束解析を確立した。
エントロピー規則化NPGは関数近似誤差までのエンフィナール収束を示すことを示す。
論文 参考訳(メタデータ) (2021-06-08T04:30:39Z) - Robust Implicit Networks via Non-Euclidean Contractions [63.91638306025768]
暗黙のニューラルネットワークは、精度の向上とメモリ消費の大幅な削減を示す。
彼らは不利な姿勢と収束の不安定さに悩まされる。
本論文は,ニューラルネットワークを高機能かつ頑健に設計するための新しい枠組みを提供する。
論文 参考訳(メタデータ) (2021-06-06T18:05:02Z) - Gaussian Process-based Min-norm Stabilizing Controller for
Control-Affine Systems with Uncertain Input Effects and Dynamics [90.81186513537777]
本稿では,この問題の制御・アフィン特性を捉えた新しい化合物カーネルを提案する。
この結果の最適化問題は凸であることを示し、ガウス過程に基づく制御リャプノフ関数第二次コーンプログラム(GP-CLF-SOCP)と呼ぶ。
論文 参考訳(メタデータ) (2020-11-14T01:27:32Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。