論文の概要: Implicit Updates for Average-Reward Temporal Difference Learning
- arxiv url: http://arxiv.org/abs/2510.06149v1
- Date: Tue, 07 Oct 2025 17:19:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.382266
- Title: Implicit Updates for Average-Reward Temporal Difference Learning
- Title(参考訳): 平均逆時間差学習におけるインプシット更新
- Authors: Hwanwoo Kim, Dongkyu Derek Cho, Eric Laber,
- Abstract要約: 経験的に、平均逆の暗黙のTD($lambda$)は、より広範囲のステップサイズで確実に動作する。
これにより、より効率的なポリシー評価とポリシー学習が可能になり、平均回帰TD($lambda$)に対する堅牢な代替手段としての有効性を強調します。
- 参考スコア(独自算出の注目度): 1.6440434996206623
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Temporal difference (TD) learning is a cornerstone of reinforcement learning. In the average-reward setting, standard TD($\lambda$) is highly sensitive to the choice of step-size and thus requires careful tuning to maintain numerical stability. We introduce average-reward implicit TD($\lambda$), which employs an implicit fixed point update to provide data-adaptive stabilization while preserving the per iteration computational complexity of standard average-reward TD($\lambda$). In contrast to prior finite-time analyses of average-reward TD($\lambda$), which impose restrictive step-size conditions, we establish finite-time error bounds for the implicit variant under substantially weaker step-size requirements. Empirically, average-reward implicit TD($\lambda$) operates reliably over a much broader range of step-sizes and exhibits markedly improved numerical stability. This enables more efficient policy evaluation and policy learning, highlighting its effectiveness as a robust alternative to average-reward TD($\lambda$).
- Abstract(参考訳): 時間差学習(TD)は強化学習の基盤である。
平均逆設定では、標準TD($\lambda$)はステップサイズの選択に非常に敏感であり、数値安定性を維持するためには注意深いチューニングが必要である。
平均逆暗黙的TD($\lambda$)を導入する。これは、暗黙の固定点更新を用いて、標準平均逆TD($\lambda$)の反復毎の計算複雑性を保ちながら、データ適応安定化を提供する。
制限的なステップサイズ条件を課す平均逆TD($\lambda$)の以前の有限時間解析とは対照的に、かなり弱いステップサイズ要件の下で暗黙的変量に対する有限時間誤差境界を確立する。
経験的に、平均逆の暗黙的TD($\lambda$)は、より広範囲のステップサイズで確実に動作し、数値安定性を著しく改善している。
これにより、より効率的なポリシー評価とポリシー学習が可能になり、平均逆TD($\lambda$)に対する堅牢な代替手段としての有効性を強調します。
関連論文リスト
- Stabilizing Temporal Difference Learning via Implicit Stochastic Recursion [2.1301560294088318]
時間差学習は強化学習における基礎的アルゴリズムである
本稿では,TD更新を固定点方程式に変換する暗黙的TDアルゴリズムを提案する。
以上の結果から,暗黙的TDアルゴリズムはより広いステップサイズに適用可能であることが示された。
論文 参考訳(メタデータ) (2025-05-02T15:57:54Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - A Finite-Sample Analysis of an Actor-Critic Algorithm for Mean-Variance Optimization in a Discounted MDP [1.0923877073891446]
政策評価のために線形関数近似(LFA)を用いた時間差分学習アルゴリズムを解析する。
我々は、(i) を平均二乗の意味で保持し、(ii) を尾の反復平均化の下で高い確率で導く有限サンプル境界を導出する。
これらの結果は、強化学習におけるリスクに敏感なアクター批判法に対する有限サンプル理論的保証を確立する。
論文 参考訳(メタデータ) (2024-06-12T05:49:53Z) - Finite time analysis of temporal difference learning with linear
function approximation: Tail averaging and regularisation [44.27439128304058]
そこで本研究では,TD学習アルゴリズムの時間的有限性について検討した。
ステップサイズ選択の下で、テール平均TDのパラメータ誤差に基づいて有限時間境界を導出する。
論文 参考訳(メタデータ) (2022-10-12T04:37:54Z) - Temporal-Difference Value Estimation via Uncertainty-Guided Soft Updates [110.92598350897192]
Q-Learningは、制御タスクを実行するポリシーを学ぶのに効果的であることが証明されている。
推定ノイズは、政策改善ステップにおける最大演算子の後、バイアスとなる。
UQL(Unbiased Soft Q-Learning)は、2つのアクション、有限状態空間からマルチアクション、無限状態マルコフ決定プロセスまで、EQLの作業を拡張する。
論文 参考訳(メタデータ) (2021-10-28T00:07:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。