論文の概要: Target-Aligned Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.29501v1
- Date: Tue, 31 Mar 2026 09:42:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-01 15:25:03.468433
- Title: Target-Aligned Reinforcement Learning
- Title(参考訳): 目標適応型強化学習
- Authors: Leonard S. Pleiss, James Harrison, Maximilian Schiffer,
- Abstract要約: 多くの強化学習アルゴリズムは、トレーニングを安定させるためにターゲットネットワーク(オンラインネットワークのコピーをラベル付けした)に依存している。
本稿では,ターゲット・アラインメント型強化学習(TARL)を提案する。
- 参考スコア(独自算出の注目度): 12.477207334328156
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Many reinforcement learning algorithms rely on target networks - lagged copies of the online network - to stabilize training. While effective, this mechanism introduces a fundamental stability-recency tradeoff: slower target updates improve stability but reduce the recency of learning signals, hindering convergence speed. We propose Target-Aligned Reinforcement Learning (TARL), a framework that emphasizes transitions for which the target and online network estimates are highly aligned. By focusing updates on well-aligned targets, TARL mitigates the adverse effects of stale target estimates while retaining the stabilizing benefits of target networks. We provide a theoretical analysis demonstrating that target alignment correction accelerates convergence, and empirically demonstrate consistent improvements over standard reinforcement learning algorithms across various benchmark environments.
- Abstract(参考訳): 多くの強化学習アルゴリズムは、トレーニングを安定させるためにターゲットネットワーク(オンラインネットワークのコピーをラベル付けした)に依存している。
目標更新の遅さにより安定性は向上するが、学習信号の相対性は低下し、収束速度の妨げとなる。
本稿では,ターゲット・アラインメント型強化学習(TARL)を提案する。
適切に整合したターゲットにアップデートを集中することにより、TARLはターゲットネットワークの安定化メリットを維持しながら、安定化されたターゲット推定の悪影響を軽減する。
本稿では、目標アライメント補正が収束を加速することを示す理論解析を行い、様々なベンチマーク環境における標準強化学習アルゴリズムに対する一貫した改善を実証的に示す。
関連論文リスト
- Use the Online Network If You Can: Towards Fast and Stable Reinforcement Learning [22.6796319984868]
本稿では,ターゲットネットワークとオンラインネットワーク間の最小推定値を用いてターゲットを演算する新しい更新ルールを提案する。
MINTOは、ブートストラップにオンラインネットワークを使用する際の潜在的な過大評価バイアスを軽減し、より高速で安定した値関数学習を可能にする。
我々はMINTOを様々なベンチマークで広く評価し、オンラインとオフラインのRL、そして離散かつ連続的なアクション空間にまたがる。
論文 参考訳(メタデータ) (2025-10-02T21:48:01Z) - Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning [21.38951369323128]
本稿では,オンラインネットワークの最後の線形層のコピーをターゲットネットワークとして利用する新しい手法を提案する。
連続的なベルマン更新を並列に学習する反復型Q-ラーニングの概念と組み合わせることで、ターゲットレスアプローチのサンプル効率を向上させることができる。
論文 参考訳(メタデータ) (2025-06-04T19:27:29Z) - Why Target Networks Stabilise Temporal Difference Methods [38.35578010611503]
そこで本研究では, 厳密な規則性条件と目標ネットワーク更新頻度の調整により, 収束が保証されることを示す。
我々は,TD更新のヤコビアンにおいて,ターゲットネットワークの利用が条件の悪さの影響を軽減することができると結論付けた。
論文 参考訳(メタデータ) (2023-02-24T09:46:00Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文 参考訳(メタデータ) (2022-10-21T22:27:07Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
ターゲットネットワークは暗黙の正則化器として機能し、いくつかのケースでは有益であるが、欠点もある。
本稿では,フレキシブルな関数正規化法と関数空間における凸正規化法を提案する。
この結果から,機能正規化はTarget Networksのドロップイン代替として利用でき,結果として性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-04T17:21:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。