論文の概要: GB-DQN: Gradient Boosted DQN Models for Non-stationary Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2512.17034v1
- Date: Thu, 18 Dec 2025 19:53:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-22 19:25:54.155583
- Title: GB-DQN: Gradient Boosted DQN Models for Non-stationary Reinforcement Learning
- Title(参考訳): GB-DQN:非定常強化学習のための勾配強化DQNモデル
- Authors: Chang-Hwan Lee, Chanseung Lee,
- Abstract要約: 逐次残差学習によるモデルドリフトに対応する適応型アンサンブル法であるemphGradient-Boosted Deep Q-Networks (GB-DQN)を提案する。
GB-DQNは、単一のQ-ネットワークを再訓練する代わりに、新たな学習者がドリフト後の現在のアンサンブルのベルマン残差を近似するように訓練された付加的なアンサンブルを構築する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Non-stationary environments pose a fundamental challenge for deep reinforcement learning, as changes in dynamics or rewards invalidate learned value functions and cause catastrophic forgetting. We propose \emph{Gradient-Boosted Deep Q-Networks (GB-DQN)}, an adaptive ensemble method that addresses model drift through incremental residual learning. Instead of retraining a single Q-network, GB-DQN constructs an additive ensemble in which each new learner is trained to approximate the Bellman residual of the current ensemble after drift. We provide theoretical results showing that each boosting step reduces the empirical Bellman residual and that the ensemble converges to the post-drift optimal value function under standard assumptions. Experiments across a diverse set of control tasks with controlled dynamics changes demonstrate faster recovery, improved stability, and greater robustness compared to DQN and common non-stationary baselines.
- Abstract(参考訳): 非定常環境は、力学や報酬の変化が学習価値関数を無効にし、破滅的な忘れを引き起こすため、深い強化学習にとって根本的な課題となる。
逐次逐次学習によるモデルドリフトに対応する適応型アンサンブル法である \emph{Gradient-Boosted Deep Q-Networks (GB-DQN) を提案する。
GB-DQNは、単一のQ-ネットワークを再訓練する代わりに、新たな学習者がドリフト後の現在のアンサンブルのベルマン残差を近似するように訓練された付加的なアンサンブルを構築する。
本稿では,各ブースティングステップが経験的ベルマン残差を低減し,アンサンブルが標準仮定の下でのドリフト後の最適値関数に収束することを示す理論的結果を示す。
制御された動的変化を伴う多様な制御タスクに対する実験は、DQNや一般的な非定常ベースラインと比較して、より高速な回復、安定性の向上、より堅牢性を示す。
関連論文リスト
- Provable Benefit of Curriculum in Transformer Tree-Reasoning Post-Training [76.12556589212666]
学習後のカリキュラムは指数関数的複雑性のボトルネックを回避していることを示す。
結果のみの報酬信号の下では、強化学習の微調整は、サンプルの複雑さを高い精度で達成する。
カリキュラムを意識したクエリにより、報奨託書の呼び出しとサンプリングコストの両方を指数関数的に削減するテストタイムスケーリングの保証を確立する。
論文 参考訳(メタデータ) (2025-11-10T18:29:54Z) - Adaptive Variance-Penalized Continual Learning with Fisher Regularization [0.0]
本研究は、パラメータ分散のフィッシャー重み付き非対称正規化を統合する、新しい連続学習フレームワークを提案する。
本手法はパラメータの不確かさに応じて正規化強度を動的に変調し,安定性と性能を向上させる。
論文 参考訳(メタデータ) (2025-08-15T21:49:28Z) - Ensemble Elastic DQN: A novel multi-step ensemble approach to address overestimation in deep value-based reinforcement learning [1.8008841825105586]
本稿では,エンサンブルを弾性的なステップ更新で統一し,アルゴリズム性能を安定化させる,Ensemble Elastic Step DQN (EEDQN) という新しいアルゴリズムを提案する。
EEDQNは、過大評価バイアスとサンプル効率という、深層強化学習における2つの大きな課題に対処するように設計されている。
以上の結果から,EEDQNは全テスト環境において一貫したロバストな性能を実現していることがわかった。
論文 参考訳(メタデータ) (2025-06-06T03:36:19Z) - Scaling Off-Policy Reinforcement Learning with Batch and Weight Normalization [15.212942734663514]
CrossQは,更新データ(UTD)比が1。
より高UTD比で強調されるトレーニングダイナミクスの課題を明らかにする。
提案手法はUTD比の増大とともに確実にスケールし,25の難易度連続制御タスクにまたがる競争性能を達成する。
論文 参考訳(メタデータ) (2025-02-11T12:55:32Z) - SALE-Based Offline Reinforcement Learning with Ensemble Q-Networks [0.0]
本稿では, EDAC から, アンサンブル Q-networks と勾配多様性ペナルティを統合したモデルフリーアクタ批判アルゴリズムを提案する。
提案アルゴリズムは,既存手法に比べて収束速度,安定性,性能の向上を実現している。
論文 参考訳(メタデータ) (2025-01-07T10:22:30Z) - Large Continual Instruction Assistant [59.585544987096974]
CIT(Continuous Instruction Tuning)は、大規模モデルにデータによる人間の意図データに従うよう指示するために用いられる。
既存の更新勾配は、CITプロセス中に前のデータセットのパフォーマンスを著しく損なうことになる。
本稿では,この課題に対処する汎用的な連続的命令チューニングフレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-08T11:24:59Z) - Towards Continual Learning Desiderata via HSIC-Bottleneck
Orthogonalization and Equiangular Embedding [55.107555305760954]
本稿では,レイヤワイドパラメータのオーバーライトや決定境界の歪みに起因する,概念的にシンプルで効果的な手法を提案する。
提案手法は,ゼロの指数バッファと1.02倍の差が絶対的に優れていても,競争精度が向上する。
論文 参考訳(メタデータ) (2024-01-17T09:01:29Z) - Single-Trajectory Distributionally Robust Reinforcement Learning [21.955807398493334]
本研究では,分散ロバストRL (DRRL) を提案する。
既存のDRRLアルゴリズムはモデルベースか、1つのサンプル軌道から学習できないかのいずれかである。
単一軌道を用いた分散ロバストQ-ラーニング(DRQ)と呼ばれる,完全モデルフリーなDRRLアルゴリズムを設計する。
論文 参考訳(メタデータ) (2023-01-27T14:08:09Z) - SUNRISE: A Simple Unified Framework for Ensemble Learning in Deep
Reinforcement Learning [102.78958681141577]
SUNRISEは単純な統一アンサンブル法であり、様々な非政治的な深層強化学習アルゴリズムと互換性がある。
SUNRISEは, (a) アンサンブルに基づく重み付きベルマンバックアップと, (b) 最上位の自信境界を用いて行動を選択する推論手法を統合し, 効率的な探索を行う。
論文 参考訳(メタデータ) (2020-07-09T17:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。