論文の概要: Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning With Iterated Q-Learning
- arxiv url: http://arxiv.org/abs/2506.04398v1
- Date: Wed, 04 Jun 2025 19:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.396898
- Title: Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning With Iterated Q-Learning
- Title(参考訳): 繰り返しQ-Learningによるターゲットフリーとターゲットベース強化学習のパフォーマンス向上
- Authors: Théo Vincent, Yogesh Tripathi, Tim Faust, Yaniv Oren, Jan Peters, Carlo D'Eramo,
- Abstract要約: 価値に基づく強化学習では、目標ネットワークの除去が誘惑され、最新推定値から目標を引き上げる。
我々は,オンラインネットワークの最後の線形層のコピーをターゲットネットワークとして使用し,残りのパラメータを最新のオンラインネットワークと共有することを提案する。
これにより,連続したベルマン反復を並列に学習する,反復型Q-ラーニングの概念を活用できる。
- 参考スコア(独自算出の注目度): 16.37956160356348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In value-based reinforcement learning, removing the target network is tempting as the boostrapped target would be built from up-to-date estimates, and the spared memory occupied by the target network could be reallocated to expand the capacity of the online network. However, eliminating the target network introduces instability, leading to a decline in performance. Removing the target network also means we cannot leverage the literature developed around target networks. In this work, we propose to use a copy of the last linear layer of the online network as a target network, while sharing the remaining parameters with the up-to-date online network, hence stepping out of the binary choice between target-based and target-free methods. It enables us to leverage the concept of iterated Q-learning, which consists of learning consecutive Bellman iterations in parallel, to reduce the performance gap between target-free and target-based approaches. Our findings demonstrate that this novel method, termed iterated Shared Q-Learning (iS-QL), improves the sample efficiency of target-free approaches across various settings. Importantly, iS-QL requires a smaller memory footprint and comparable training time to classical target-based algorithms, highlighting its potential to scale reinforcement learning research.
- Abstract(参考訳): 価値に基づく強化学習では、最新の推定値から、ターゲットネットワークを削除し、ターゲットネットワークが占有する余剰メモリを再配置して、オンラインネットワークの容量を拡大するので、ターゲットネットワークの除去は誘惑的である。
しかし、ターゲットネットワークをなくすと不安定になり、性能が低下する。
また,対象ネットワークの除去は,対象ネットワークを中心に開発された文献を活用できないことを意味している。
本研究では,オンラインネットワークの最後の線形層のコピーをターゲットネットワークとして使用し,残りのパラメータを最新のオンラインネットワークと共有することを提案する。
これにより、連続するベルマン反復を並列に学習する反復Q-ラーニングの概念を活用することができ、ターゲットフリーとターゲットベースアプローチのパフォーマンスギャップを低減することができる。
提案手法は,iS-QL(iS-QL)と呼ばれる新しい手法により,様々な設定において,ターゲットフリーアプローチのサンプル効率が向上することを示す。
重要な点として、iS-QLはメモリフットプリントを小さくし、古典的なターゲットベースアルゴリズムに匹敵するトレーニング時間を必要とし、強化学習研究をスケールする可能性を強調している。
関連論文リスト
- Why Target Networks Stabilise Temporal Difference Methods [38.35578010611503]
そこで本研究では, 厳密な規則性条件と目標ネットワーク更新頻度の調整により, 収束が保証されることを示す。
我々は,TD更新のヤコビアンにおいて,ターゲットネットワークの利用が条件の悪さの影響を軽減することができると結論付けた。
論文 参考訳(メタデータ) (2023-02-24T09:46:00Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文 参考訳(メタデータ) (2022-10-21T22:27:07Z) - Continual Learning with Dependency Preserving Hypernetworks [14.102057320661427]
継続学習(CL)問題に対処するための効果的なアプローチは、ターゲットネットワークのタスク依存重みを生成するハイパーネットワークを使用することである。
本稿では,パラメータの効率を保ちながら,依存関係保存型ハイパーネットワークを用いて対象ネットワークの重み付けを生成する手法を提案する。
さらに,RNNベースのハイパーネットワークのための新しい正規化手法とネットワーク成長手法を提案し,継続学習性能をさらに向上させる。
論文 参考訳(メタデータ) (2022-09-16T04:42:21Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
ターゲットネットワークは暗黙の正則化器として機能し、いくつかのケースでは有益であるが、欠点もある。
本稿では,フレキシブルな関数正規化法と関数空間における凸正規化法を提案する。
この結果から,機能正規化はTarget Networksのドロップイン代替として利用でき,結果として性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-04T17:21:07Z) - Meta-Learning with Network Pruning [40.07436648243748]
本稿では,ネットワークのキャパシティを明示的に制御することで,ネットワークプルーニングに基づくメタラーニング手法を提案する。
我々はDense-Sparse-Dense (DSD) と Iterative Hard Thresholding (IHT) の2つのネットワークプルーニングルーチンを組み込んだReptile上でのアプローチを実装した。
論文 参考訳(メタデータ) (2020-07-07T06:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。