論文の概要: Regularized Gradient Temporal-Difference Learning
- arxiv url: http://arxiv.org/abs/2601.20599v1
- Date: Wed, 28 Jan 2026 13:37:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-29 15:46:06.947038
- Title: Regularized Gradient Temporal-Difference Learning
- Title(参考訳): 正規化時間差学習
- Authors: Hyunjun Na, Donghwan Lee,
- Abstract要約: 関数近似を用いた非政治政策評価には,GTD学習アルゴリズムが広く用いられている。
本稿では,平均2乗予測ベルマン誤差 (MSPBE) を最小化することで,正規化された最適化目標を提案する。
この定式化は自然に R-GTD と呼ばれる正規化された GTD アルゴリズムを生み出し、これは FIM が特異である場合でも一意解への収束を保証する。
- 参考スコア(独自算出の注目度): 6.622208195193136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Gradient temporal-difference (GTD) learning algorithms are widely used for off-policy policy evaluation with function approximation. However, existing convergence analyses rely on the restrictive assumption that the so-called feature interaction matrix (FIM) is nonsingular. In practice, the FIM can become singular and leads to instability or degraded performance. In this paper, we propose a regularized optimization objective by reformulating the mean-square projected Bellman error (MSPBE) minimization. This formulation naturally yields a regularized GTD algorithms, referred to as R-GTD, which guarantees convergence to a unique solution even when the FIM is singular. We establish theoretical convergence guarantees and explicit error bounds for the proposed method, and validate its effectiveness through empirical experiments.
- Abstract(参考訳): 関数近似を用いた非政治政策評価には,GTD学習アルゴリズムが広く用いられている。
しかし、既存の収束解析は、いわゆる特徴相互作用行列(FIM)が非特異であるという制限的な仮定に依存している。
実際には、FIMは特異なものになり、不安定性や性能低下につながる可能性がある。
本稿では,平均二乗射影ベルマン誤差 (MSPBE) を最小化することで,正規化された最適化目標を提案する。
この定式化は自然に R-GTD と呼ばれる正規化された GTD アルゴリズムを生み出し、これは FIM が特異である場合でも一意解への収束を保証する。
提案手法の理論的収束保証と明示的誤差境界を確立し,その有効性を実証実験により検証する。
関連論文リスト
- Mirror Descent Actor Critic via Bounded Advantage Learning [0.0]
Mirror Descent Value Iteration (MDVI)は、Kulback-Leiblerの発散とエントロピーを、その値とポリシー更新の正則化として使用している。
本稿では,MDVIのアクター・アクター・アクター・アクター・クリティカル(MDAC)を連続的なアクション・ドメインに対するアクター・アクター・アクター・アクター・アクター・アクター・クリティ(MDAC)として提案する。
論文 参考訳(メタデータ) (2025-02-06T08:14:03Z) - Achieving $\widetilde{\mathcal{O}}(\sqrt{T})$ Regret in Average-Reward POMDPs with Known Observation Models [69.1820058966619]
平均逆無限水平POMDPを未知の遷移モデルで扱う。
この障壁を克服する斬新でシンプルな推定器を提示する。
論文 参考訳(メタデータ) (2025-01-30T22:29:41Z) - Statistical Inference for Temporal Difference Learning with Linear Function Approximation [55.80276145563105]
The statistics properties of Temporal difference learning with Polyak-Ruppert averaging。
3つの理論的な貢献により、現在の最先端の成果が向上する。
論文 参考訳(メタデータ) (2024-10-21T15:34:44Z) - Strongly-polynomial time and validation analysis of policy gradient methods [3.722665817361884]
本稿では,有限状態および行動マルコフ決定過程(MDP)と強化学習(RL)のための,優位ギャップ関数と呼ばれる新しい終了基準を提案する。
この利点ギャップ関数をステップサイズルールの設計に組み込むことで、最適ポリシーの定常状態分布に依存しない新しい線形収束率を導出する。
政策勾配法に対してそのような強い収束特性が確立されたのはこれが初めてである。
論文 参考訳(メタデータ) (2024-09-28T18:56:48Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Accelerated and instance-optimal policy evaluation with linear function
approximation [17.995515643150657]
既存のアルゴリズムはこれらの下界の少なくとも1つと一致しない。
我々は,両下界を同時に一致させる高速時間差分アルゴリズムを開発し,インスタンス最適性という強い概念を実現する。
論文 参考訳(メタデータ) (2021-12-24T17:21:04Z) - Logistic Q-Learning [87.00813469969167]
MDPにおける最適制御の正規化線形プログラミング定式化から導いた新しい強化学習アルゴリズムを提案する。
提案アルゴリズムの主な特徴は,広範に使用されているベルマン誤差の代わりとして理論的に音声として機能する,政策評価のための凸損失関数である。
論文 参考訳(メタデータ) (2020-10-21T17:14:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。