論文の概要: Use the Online Network If You Can: Towards Fast and Stable Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2510.02590v1
- Date: Thu, 02 Oct 2025 21:48:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.191961
- Title: Use the Online Network If You Can: Towards Fast and Stable Reinforcement Learning
- Title(参考訳): できるならオンラインネットワークを使う:高速で安定した強化学習を目指す
- Authors: Ahmed Hendawy, Henrik Metternich, Théo Vincent, Mahdi Kallel, Jan Peters, Carlo D'Eramo,
- Abstract要約: 本稿では,ターゲットネットワークとオンラインネットワーク間の最小推定値を用いてターゲットを演算する新しい更新ルールを提案する。
MINTOは、ブートストラップにオンラインネットワークを使用する際の潜在的な過大評価バイアスを軽減し、より高速で安定した値関数学習を可能にする。
我々はMINTOを様々なベンチマークで広く評価し、オンラインとオフラインのRL、そして離散かつ連続的なアクション空間にまたがる。
- 参考スコア(独自算出の注目度): 22.6796319984868
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of target networks is a popular approach for estimating value functions in deep Reinforcement Learning (RL). While effective, the target network remains a compromise solution that preserves stability at the cost of slowly moving targets, thus delaying learning. Conversely, using the online network as a bootstrapped target is intuitively appealing, albeit well-known to lead to unstable learning. In this work, we aim to obtain the best out of both worlds by introducing a novel update rule that computes the target using the MINimum estimate between the Target and Online network, giving rise to our method, MINTO. Through this simple, yet effective modification, we show that MINTO enables faster and stable value function learning, by mitigating the potential overestimation bias of using the online network for bootstrapping. Notably, MINTO can be seamlessly integrated into a wide range of value-based and actor-critic algorithms with a negligible cost. We evaluate MINTO extensively across diverse benchmarks, spanning online and offline RL, as well as discrete and continuous action spaces. Across all benchmarks, MINTO consistently improves performance, demonstrating its broad applicability and effectiveness.
- Abstract(参考訳): ターゲットネットワークの利用は、深層強化学習(RL)における価値関数を推定するための一般的なアプローチである。
効果はあるものの、ターゲットネットワークは、ゆっくりと動くターゲットのコストで安定性を保ち、学習を遅らせる妥協ソリューションのままである。
逆に、オンラインネットワークをブートストラップされたターゲットとして使うのは直感的に魅力的だが、不安定な学習につながることはよく知られている。
本研究では,ターゲットネットワークとオンラインネットワーク間の最小推定値を用いて目標を計算し,新たな更新ルールを導入することにより,両世界のベストを得られることを目的としている。
このシンプルかつ効果的な修正により、オンラインネットワークをブートストラップに利用する際の過大評価バイアスを軽減し、MINTOがより高速かつ安定した値関数学習を可能にすることを示す。
特に、MINTOは、無視できるコストで、広範囲のバリューベースおよびアクタークリティカルなアルゴリズムにシームレスに統合できる。
我々はMINTOを様々なベンチマークで広く評価し、オンラインとオフラインのRL、そして離散かつ連続的なアクション空間にまたがる。
すべてのベンチマークにおいて、MINTOはパフォーマンスを継続的に改善し、その適用性と有効性を示している。
関連論文リスト
- Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning [21.38951369323128]
本稿では,オンラインネットワークの最後の線形層のコピーをターゲットネットワークとして利用する新しい手法を提案する。
連続的なベルマン更新を並列に学習する反復型Q-ラーニングの概念と組み合わせることで、ターゲットレスアプローチのサンプル効率を向上させることができる。
論文 参考訳(メタデータ) (2025-06-04T19:27:29Z) - Why Target Networks Stabilise Temporal Difference Methods [38.35578010611503]
そこで本研究では, 厳密な規則性条件と目標ネットワーク更新頻度の調整により, 収束が保証されることを示す。
我々は,TD更新のヤコビアンにおいて,ターゲットネットワークの利用が条件の悪さの影響を軽減することができると結論付けた。
論文 参考訳(メタデータ) (2023-02-24T09:46:00Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文 参考訳(メタデータ) (2022-10-21T22:27:07Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
ターゲットネットワークは暗黙の正則化器として機能し、いくつかのケースでは有益であるが、欠点もある。
本稿では,フレキシブルな関数正規化法と関数空間における凸正規化法を提案する。
この結果から,機能正規化はTarget Networksのドロップイン代替として利用でき,結果として性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-04T17:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。