論文の概要: Deep Q-Learning with Gradient Target Tracking
- arxiv url: http://arxiv.org/abs/2503.16700v1
- Date: Thu, 20 Mar 2025 20:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-24 14:55:10.538767
- Title: Deep Q-Learning with Gradient Target Tracking
- Title(参考訳): 勾配目標追跡による深層Q-Learning
- Authors: Donghwan Lee, Bum Geun Park, Taeho Lee,
- Abstract要約: 本稿では,勾配目標追跡を用いたQ-ラーニングを提案する。
従来のハードアップデートパラダイムの代替として、学習した継続的ターゲット更新メカニズムを提供する。
- 参考スコア(独自算出の注目度): 4.523535822416753
- License:
- Abstract: This paper introduces Q-learning with gradient target tracking, a novel reinforcement learning framework that provides a learned continuous target update mechanism as an alternative to the conventional hard update paradigm. In the standard deep Q-network (DQN), the target network is a copy of the online network's weights, held fixed for a number of iterations before being periodically replaced via a hard update. While this stabilizes training by providing consistent targets, it introduces a new challenge: the hard update period must be carefully tuned to achieve optimal performance. To address this issue, we propose two gradient-based target update methods: DQN with asymmetric gradient target tracking (AGT2-DQN) and DQN with symmetric gradient target tracking (SGT2-DQN). These methods replace the conventional hard target updates with continuous and structured updates using gradient descent, which effectively eliminates the need for manual tuning. We provide a theoretical analysis proving the convergence of these methods in tabular settings. Additionally, empirical evaluations demonstrate their advantages over standard DQN baselines, which suggest that gradient-based target updates can serve as an effective alternative to conventional target update mechanisms in Q-learning.
- Abstract(参考訳): 本稿では,従来のハード更新パラダイムの代替として,学習継続目標更新機構を提供する新しい強化学習フレームワークであるグラデーション目標追跡を用いたQ-ラーニングを紹介する。
標準のディープQネットワーク(DQN)では、ターゲットネットワークはオンラインネットワークの重みのコピーであり、ハードアップデートによって定期的に置き換えられる前に何度も更新される。
これにより、一貫した目標を提供することでトレーニングを安定させるが、新しい課題がもたらされる。
この問題に対処するために、非対称勾配目標追跡(AGT2-DQN)付きDQNと対称勾配目標追跡(SGT2-DQN)付きDQNの2つの勾配に基づく目標更新手法を提案する。
これらの方法は、従来のハードターゲット更新を、勾配勾配勾配を用いた連続的および構造化的な更新に置き換えることによって、手動チューニングを効果的に不要にする。
本稿では,これらの手法が表の設定において収束することを証明する理論的解析を行う。
さらに、実験的な評価では、標準のDQNベースラインに対する利点が示されており、これは、勾配に基づく目標更新が、Qラーニングにおける従来の目標更新メカニズムに代わる効果的な代替手段となることを示唆している。
関連論文リスト
- eagle: early approximated gradient based learning rate estimator [0.06906005491572399]
本稿では,トレーニングの初期段階における損失収束を高速化する新しい最適化手法を提案する。
更新アルゴリズムは、パラメータの変化を計算し、連続的なトレーニングステップ間で最適なパラメータを推定する。
本稿では,AdamとEagleの更新ルールを選択する適応スイッチング機構を導入し,トレーニング安定性を向上させる。
論文 参考訳(メタデータ) (2025-02-03T04:15:34Z) - Temporal-Difference Variational Continual Learning [89.32940051152782]
現実世界のアプリケーションにおける機械学習モデルの重要な機能は、新しいタスクを継続的に学習する能力である。
継続的な学習設定では、モデルは以前の知識を保持することで新しいタスクの学習のバランスをとるのに苦労することが多い。
複数の先行推定の正則化効果を統合する新たな学習目標を提案する。
論文 参考訳(メタデータ) (2024-10-10T10:58:41Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Q-REG: End-to-End Trainable Point Cloud Registration with Surface
Curvature [81.25511385257344]
本稿では、リッチな幾何学的情報を用いて、単一の対応から剛性ポーズを推定する新しい解Q-REGを提案する。
Q-REGは、堅牢な推定を徹底的な探索として形式化し、エンドツーエンドのトレーニングを可能にする。
実験では、Q-REGは対応マッチング法に非依存であり、推論とエンドツーエンドトレーニングの両方で使用した場合に一貫した改善を提供する。
論文 参考訳(メタデータ) (2023-09-27T20:58:53Z) - Multiplicative update rules for accelerating deep learning training and
increasing robustness [69.90473612073767]
我々は、幅広い機械学習アルゴリズムに適合し、代替の更新ルールを適用することができる最適化フレームワークを提案する。
提案するフレームワークはトレーニングを加速する一方、従来の追加更新ルールとは対照的に、より堅牢なモデルにつながります。
論文 参考訳(メタデータ) (2023-07-14T06:44:43Z) - Goal-Conditioned Q-Learning as Knowledge Distillation [136.79415677706612]
目標条件設定における非政治強化学習と知識蒸留との関連について検討する。
これは,目標の空間が高次元である場合に,目標条件付き非政治強化学習の性能を向上させることを実証的に示す。
また,複数のスパース目標を同時に達成した場合に,この手法を効果的に学習できることを示す。
論文 参考訳(メタデータ) (2022-08-28T22:01:10Z) - An adaptive synchronization approach for weights of deep reinforcement
learning [2.132096006921048]
ディープQ-Networks(DQN)は、ディープ強化学習の最もよく知られている方法の1つである。
ネットワークの重みを一定のステップサイズで同期させ、エージェントの振る舞いとは無関係に、場合によっては適切に学習されたネットワークが失われる可能性がある。
DQNで使用される神経重みの同期に適応的なアプローチを提案する。
論文 参考訳(メタデータ) (2020-08-16T18:49:35Z) - Variance Reduction for Deep Q-Learning using Stochastic Recursive
Gradient [51.880464915253924]
深層Q-ラーニングアルゴリズムは、過度な分散を伴う勾配推定に苦しむことが多い。
本稿では、SRG-DQNと呼ばれる新しいアルゴリズムを実現するため、深層Q-ラーニングにおける勾配推定を更新するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2020-07-25T00:54:20Z) - Periodic Q-Learning [24.099046883918046]
いわゆる周期的Q-ラーニングアルゴリズム(略してPQ-ラーニング)について検討する。
PQ学習は、オンライン推定とターゲット推定の2つの別々のQ値推定を維持している。
標準的なQ-ラーニングとは対照的に、PQ-ラーニングは単純な有限時間解析を楽しみ、エプシロン最適ポリシーを見つけるためのより良いサンプルを得る。
論文 参考訳(メタデータ) (2020-02-23T00:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。