論文の概要: Stability and Generalization for Bellman Residuals
- arxiv url: http://arxiv.org/abs/2508.18741v1
- Date: Tue, 26 Aug 2025 07:15:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.720442
- Title: Stability and Generalization for Bellman Residuals
- Title(参考訳): ベルマン残差の安定性と一般化
- Authors: Enoch H. Kang, Kyoungseok Jang,
- Abstract要約: ベルマン残留最小化(BRM)はオフライン強化学習の魅力的な治療法として浮上している。
本稿では,SGDAが近傍のデータセット上で実行され,O(1/n)平均引数-安定性境界が得られる,単一のリアプノフポテンシャルを紹介する。
その結果、標準のニューラルネットワークパラメータ化とミニバッチSGDが得られた。
- 参考スコア(独自算出の注目度): 8.250374560598493
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Offline reinforcement learning and offline inverse reinforcement learning aim to recover near-optimal value functions or reward models from a fixed batch of logged trajectories, yet current practice still struggles to enforce Bellman consistency. Bellman residual minimization (BRM) has emerged as an attractive remedy, as a globally convergent stochastic gradient descent-ascent based method for BRM has been recently discovered. However, its statistical behavior in the offline setting remains largely unexplored. In this paper, we close this statistical gap. Our analysis introduces a single Lyapunov potential that couples SGDA runs on neighbouring datasets and yields an O(1/n) on-average argument-stability bound-doubling the best known sample-complexity exponent for convex-concave saddle problems. The same stability constant translates into the O(1/n) excess risk bound for BRM, without variance reduction, extra regularization, or restrictive independence assumptions on minibatch sampling. The results hold for standard neural-network parameterizations and minibatch SGD.
- Abstract(参考訳): オフライン強化学習とオフライン逆強化学習は、ログされた軌道の固定バッチからほぼ最適値関数や報酬モデルを復元することを目的としている。
ベルマン残留最小化法(BRM)は,BRMのグローバル収束確率勾配勾配上昇法として注目されている。
しかし、オフライン環境での統計的挙動はほとんど解明されていない。
本稿では,この統計的ギャップを埋める。
我々の分析では、SGDAが近傍のデータセット上で実行され、O(1/n)のオンアベレッジな引数-安定性を持つ1つのリアプノフポテンシャルを導入し、凸凹サドル問題に対して最もよく知られたサンプル-複雑指数をバウンダブルする。
同じ安定性定数は、分散還元、余剰正規化、あるいはミニバッチサンプリングの制限的な独立仮定なしで、BRMのO(1/n)過剰リスクバウンドに変換される。
その結果、標準のニューラルネットワークパラメータ化とミニバッチSGDが得られた。
関連論文リスト
- Convergence and Generalization of Anti-Regularization for Parametric Models [0.0]
反正則化(AR)は、小サンプル体制におけるモデル表現性を意図的に増加させる損失に対して、符号反転報酬項を付加する。
我々は、スペクトル安全性と信頼領域条件を定式化し、投射演算子と勾配クリッピングを組み合わせた軽量な安定安全ガードを設計する。
論文 参考訳(メタデータ) (2025-08-24T15:34:17Z) - Trajectory Bellman Residual Minimization: A Simple Value-Based Method for LLM Reasoning [55.33984461046492]
現在、政策に基づく手法が大規模言語モデル(LLM)推論のための強化学習パイプラインを支配している。
本稿では,このアイデアを LLM に自然に適応させるアルゴリズムである Trajectory Bellman Residual Minimization (TBRM) を紹介する。
我々は、軌道の軌道変更-測度分析の改善により、任意のオフ政治から、最適に近いKL正規化政策への収束を証明した。
論文 参考訳(メタデータ) (2025-05-21T09:41:53Z) - An Empirical Risk Minimization Approach for Offline Inverse RL and Dynamic Discrete Choice Model [9.531082746970286]
機械学習において、動的選択(DDC)モデル(オフライン最大エントロピー正規化逆強化学習(オフラインMaxEnt-IRL))を推定する問題について検討する。
目的は、オフラインの振舞いデータからエージェントの振舞いを管理する$Q*$関数をリカバリすることである。
線形パラメータ化報酬の制限的仮定を使わずにこれらの問題を解くための大域収束勾配法を提案する。
論文 参考訳(メタデータ) (2025-02-19T22:22:20Z) - Model-Based Uncertainty in Value Functions [89.31922008981735]
MDP上の分布によって引き起こされる値の分散を特徴付けることに重点を置いている。
従来の作業は、いわゆる不確実性ベルマン方程式を解くことで、値よりも後方の分散を境界にしている。
我々は、解が値の真後分散に収束する新しい不確実性ベルマン方程式を提案する。
論文 参考訳(メタデータ) (2023-02-24T09:18:27Z) - Convergence of uncertainty estimates in Ensemble and Bayesian sparse
model discovery [4.446017969073817]
ブートストラップに基づく逐次しきい値最小二乗推定器による雑音に対する精度と頑健性の観点から経験的成功を示す。
このブートストラップに基づくアンサンブル手法は,誤差率の指数収束率で,確率的に正しい可変選択を行うことができることを示す。
論文 参考訳(メタデータ) (2023-01-30T04:07:59Z) - Clipped Stochastic Methods for Variational Inequalities with
Heavy-Tailed Noise [64.85879194013407]
単調なVIPと非単調なVIPの解法における信頼度に対数的依存を持つ最初の高確率結果が証明された。
この結果は光尾の場合で最もよく知られたものと一致し,非単調な構造問題に新鮮である。
さらに,多くの実用的な定式化の勾配雑音が重く,クリッピングによりSEG/SGDAの性能が向上することを示す。
論文 参考訳(メタデータ) (2022-06-02T15:21:55Z) - On the Double Descent of Random Features Models Trained with SGD [78.0918823643911]
勾配降下(SGD)により最適化された高次元におけるランダム特徴(RF)回帰特性について検討する。
本研究では, RF回帰の高精度な非漸近誤差境界を, 定常および適応的なステップサイズSGD設定の下で導出する。
理論的にも経験的にも二重降下現象を観察する。
論文 参考訳(メタデータ) (2021-10-13T17:47:39Z) - Least Squares Regression with Markovian Data: Fundamental Limits and
Algorithms [69.45237691598774]
マルコフ連鎖からデータポイントが依存しサンプリングされる最小二乗線形回帰問題について検討する。
この問題を$tau_mathsfmix$という観点から、鋭い情報理論のミニマックス下限を確立する。
本稿では,経験的リプレイに基づくアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-16T04:26:50Z) - Fine-Grained Analysis of Stability and Generalization for Stochastic
Gradient Descent [55.85456985750134]
我々は,SGDの反復的リスクによって制御される新しい境界を開発する,平均モデル安定性と呼ばれる新しい安定性尺度を導入する。
これにより、最良のモデルの振舞いによって一般化境界が得られ、低雑音環境における最初の既知の高速境界が導かれる。
我々の知る限りでは、このことはSGDの微分不能な損失関数でさえも初めて知られている安定性と一般化を与える。
論文 参考訳(メタデータ) (2020-06-15T06:30:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。