論文の概要: Gradient Iterated Temporal-Difference Learning
- arxiv url: http://arxiv.org/abs/2603.07833v1
- Date: Sun, 08 Mar 2026 22:32:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:15.312177
- Title: Gradient Iterated Temporal-Difference Learning
- Title(参考訳): 漸進的反復時間差学習
- Authors: Théo Vincent, Kevin Gerhardt, Yogesh Tripathi, Habib Maraqten, Adam White, Martha White, Jan Peters, Carlo D'Eramo,
- Abstract要約: 時間差学習(TD)は、エージェントの長期的な結果の制御と評価に非常に効果的である。
このパラダイムのほとんどのアプローチは、学習速度を高めるために半段階的な更新を実装している。
勾配TD法はこの問題を克服するために導入されたが、広くは使われていない。
- 参考スコア(独自算出の注目度): 31.96531765414569
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Temporal-difference (TD) learning is highly effective at controlling and evaluating an agent's long-term outcomes. Most approaches in this paradigm implement a semi-gradient update to boost the learning speed, which consists of ignoring the gradient of the bootstrapped estimate. While popular, this type of update is prone to divergence, as Baird's counterexample illustrates. Gradient TD methods were introduced to overcome this issue, but have not been widely used, potentially due to issues with learning speed compared to semi-gradient methods. Recently, iterated TD learning was developed to increase the learning speed of TD methods. For that, it learns a sequence of action-value functions in parallel, where each function is optimized to represent the application of the Bellman operator over the previous function in the sequence. While promising, this algorithm can be unstable due to its semi-gradient nature, as each function tracks a moving target. In this work, we modify iterated TD learning by computing the gradients over those moving targets, aiming to build a powerful gradient TD method that competes with semi-gradient methods. Our evaluation reveals that this algorithm, called Gradient Iterated Temporal-Difference learning, has a competitive learning speed against semi-gradient methods across various benchmarks, including Atari games, a result that no prior work on gradient TD methods has demonstrated.
- Abstract(参考訳): 時間差学習(TD)は、エージェントの長期的な結果の制御と評価に非常に効果的である。
このパラダイムのほとんどのアプローチは、ブートストラップされた推定値の勾配を無視した学習速度を高めるための半段階的な更新を実装している。
人気があるとはいえ、このタイプの更新は、Baird氏の反例が示すように、分岐しがちである。
グラディエントなTD手法はこの問題を克服するために導入されたが、学習速度の問題から広くは使われていない。
近年,TD手法の学習速度を向上させるため,反復的なTD学習が開発されている。
そのため、アクション値関数の列を並列に学習し、各関数は、シーケンス内の前の関数よりもベルマン演算子の応用を表現するように最適化される。
将来性はあるものの、各関数が移動対象を追跡するため、このアルゴリズムは半段階的な性質のため不安定である可能性がある。
本研究では,移動目標に対する勾配を計算し,半段階的な手法と競合する強力な勾配TD手法を構築することを目的として,反復的TD学習を修正した。
評価の結果,このアルゴリズムは,アタリゲームを含む様々なベンチマークにおいて,段階的反復時間差学習(Gradient Iterated Temporal-Difference learning)と呼ばれる,半段階的な手法に対する競合学習速度を持つことが明らかとなった。
関連論文リスト
- Stabilizing Temporal Difference Learning via Implicit Stochastic Recursion [2.1301560294088318]
時間差学習は強化学習における基礎的アルゴリズムである
本稿では,TD更新を固定点方程式に変換する暗黙的TDアルゴリズムを提案する。
以上の結果から,暗黙的TDアルゴリズムはより広いステップサイズに適用可能であることが示された。
論文 参考訳(メタデータ) (2025-05-02T15:57:54Z) - Accelerating Multi-Task Temporal Difference Learning under Low-Rank Representation [12.732028509861829]
低ランク表現環境下でのマルチタスク強化学習(RL)における政策評価問題について検討する。
そこで我々は,TD学習の更新に,いわゆるtruncatedの特異値分解ステップを統合する,新しいTD学習法を提案する。
実験の結果,提案手法は古典的なTD学習よりも優れており,性能差は$r$が減少するにつれて増大することがわかった。
論文 参考訳(メタデータ) (2025-03-03T20:07:45Z) - Class Gradient Projection For Continual Learning [99.105266615448]
破滅的な忘れは継続的学習(CL)における最も重要な課題の1つです。
タスクではなく個々のクラスから勾配部分空間を計算するクラスグラディエント・プロジェクション(CGP)を提案する。
論文 参考訳(メタデータ) (2023-11-25T02:45:56Z) - ELRA: Exponential learning rate adaption gradient descent optimization
method [83.88591755871734]
我々は, 高速(指数率), ab initio(超自由)勾配に基づく適応法を提案する。
本手法の主な考え方は,状況認識による$alphaの適応である。
これは任意の次元 n の問題に適用でき、線型にしかスケールできない。
論文 参考訳(メタデータ) (2023-09-12T14:36:13Z) - Bridging Discrete and Backpropagation: Straight-Through and Beyond [62.46558842476455]
本稿では,離散潜在変数の生成に関わるパラメータの勾配を近似する新しい手法を提案する。
本稿では,Hunの手法とODEを解くための2次数値法を統合することで,2次精度を実現するReinMaxを提案する。
論文 参考訳(メタデータ) (2023-04-17T20:59:49Z) - Toward Efficient Gradient-Based Value Estimation [4.365720395124051]
強化学習における値推定の勾配に基づく手法は、時間差(TD)学習法よりも典型的にはるかに遅い。
この速度の根本原因について検討し,メアン・スクエア・ベルマン・エラー(MSBE)がヘッセンの条件数が大きいという意味で不条件損失関数であることを示す。
本稿では,ガウス・ニュートン方向をほぼ追従し,パラメータ化に頑健な,低複雑性なバッチフリー近似法を提案する。
RANSと呼ばれる本アルゴリズムは, ほぼ同一でありながら, 残留勾配法よりもかなり高速であるという意味で, 効率的である。
論文 参考訳(メタデータ) (2023-01-31T16:45:49Z) - One Step at a Time: Pros and Cons of Multi-Step Meta-Gradient
Reinforcement Learning [61.662504399411695]
より正確でロバストなメタ勾配信号を持つ複数の内部ステップを混合する新しい手法を提案する。
Snakeゲームに適用した場合、混合メタグラディエントアルゴリズムは、類似または高い性能を達成しつつ、その分散を3倍に削減することができる。
論文 参考訳(メタデータ) (2021-10-30T08:36:52Z) - Adapting Stepsizes by Momentumized Gradients Improves Optimization and
Generalization [89.66571637204012]
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
textscAdaMomentum on vision, and achieves state-the-art results on other task including language processing。
論文 参考訳(メタデータ) (2021-06-22T03:13:23Z) - Correcting Momentum in Temporal Difference Learning [95.62766731469671]
時間差(TD)学習のモーメントは2倍に不安定になる勾配を蓄積すると主張している。
この現象が存在することを示し、その上で運動量に対する一階補正項を提案する。
この研究の重要な洞察は、深いRL法は、常に監督された設定から直接テクニックをインポートすることで最適ではないということである。
論文 参考訳(メタデータ) (2021-06-07T20:41:15Z) - Proximal Gradient Temporal Difference Learning: Stable Reinforcement
Learning with Polynomial Sample Complexity [40.73281056650241]
本稿では,真の勾配時間差学習アルゴリズムを設計・解析する原理的な方法として,近位勾配時間差学習を導入する。
本研究では, 従来の目的関数からではなく, 主目的関数から始めることによって, 勾配性TD強化学習法を公式に導出する方法を示す。
論文 参考訳(メタデータ) (2020-06-06T21:04:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。