論文の概要: Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2506.04398v2
- Date: Sun, 28 Sep 2025 10:20:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 17:47:09.022908
- Title: Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning
- Title(参考訳): ターゲットフリーとターゲットベース強化学習のギャップを埋める
- Authors: Théo Vincent, Yogesh Tripathi, Tim Faust, Yaniv Oren, Jan Peters, Carlo D'Eramo,
- Abstract要約: 本稿では,オンラインネットワークの最後の線形層のコピーをターゲットネットワークとして利用する新しい手法を提案する。
連続的なベルマン更新を並列に学習する反復型Q-ラーニングの概念と組み合わせることで、ターゲットレスアプローチのサンプル効率を向上させることができる。
- 参考スコア(独自算出の注目度): 21.38951369323128
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The use of target networks in deep reinforcement learning is a widely popular solution to mitigate the brittleness of semi-gradient approaches and stabilize learning. However, target networks notoriously require additional memory and delay the propagation of Bellman updates compared to an ideal target-free approach. In this work, we step out of the binary choice between target-free and target-based algorithms. We introduce a new method that uses a copy of the last linear layer of the online network as a target network, while sharing the remaining parameters with the up-to-date online network. This simple modification enables us to keep the target-free's low-memory footprint while leveraging the target-based literature. We find that combining our approach with the concept of iterated Q-learning, which consists of learning consecutive Bellman updates in parallel, helps improve the sample-efficiency of target-free approaches. Our proposed method, iterated Shared Q-Learning (iS-QL), bridges the performance gap between target-free and target-based approaches across various problems, while using a single Q-network, thus being a step forward towards resource-efficient reinforcement learning algorithms.
- Abstract(参考訳): 深層強化学習におけるターゲットネットワークの利用は、半段階的なアプローチの脆さを軽減し、学習を安定させるために広く利用されているソリューションである。
しかし、ターゲットネットワークは、理想的なターゲットフリーアプローチに比べてメモリの追加とベルマン更新の伝播を遅らせることが知られている。
本研究では,ターゲットフリーとターゲットベースアルゴリズムのバイナリ選択から脱却する。
本稿では,オンラインネットワークの最後の線形層のコピーをターゲットネットワークとして使用し,残りのパラメータを最新のオンラインネットワークと共有する手法を提案する。
この簡単な修正により、ターゲットベース文献を活用しながら、ターゲットフリーの低メモリフットプリントを維持することができる。
連続的なベルマン更新を並列に学習する反復型Q-ラーニングの概念と組み合わせることで、ターゲットレスアプローチのサンプル効率を向上させることができる。
提案手法は,Q-networkを1つ使用しながら,ターゲットフリーとターゲットベースアプローチのパフォーマンスギャップを橋渡しし,資源効率の強化学習アルゴリズムへの一歩を踏み出した。
関連論文リスト
- Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Why Target Networks Stabilise Temporal Difference Methods [38.35578010611503]
そこで本研究では, 厳密な規則性条件と目標ネットワーク更新頻度の調整により, 収束が保証されることを示す。
我々は,TD更新のヤコビアンにおいて,ターゲットネットワークの利用が条件の悪さの影響を軽減することができると結論付けた。
論文 参考訳(メタデータ) (2023-02-24T09:46:00Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文 参考訳(メタデータ) (2022-10-21T22:27:07Z) - Continual Learning with Dependency Preserving Hypernetworks [14.102057320661427]
継続学習(CL)問題に対処するための効果的なアプローチは、ターゲットネットワークのタスク依存重みを生成するハイパーネットワークを使用することである。
本稿では,パラメータの効率を保ちながら,依存関係保存型ハイパーネットワークを用いて対象ネットワークの重み付けを生成する手法を提案する。
さらに,RNNベースのハイパーネットワークのための新しい正規化手法とネットワーク成長手法を提案し,継続学習性能をさらに向上させる。
論文 参考訳(メタデータ) (2022-09-16T04:42:21Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - Cascaded Compressed Sensing Networks: A Reversible Architecture for
Layerwise Learning [11.721183551822097]
提案手法は, 補助ネットワークを必要とせずに, 圧縮センシングにより各層にネットワークをモデル化することにより, 対象の伝搬を実現することができることを示す。
実験により,提案手法は補助的なネットワークベース手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2021-10-20T05:21:13Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
ターゲットネットワークは暗黙の正則化器として機能し、いくつかのケースでは有益であるが、欠点もある。
本稿では,フレキシブルな関数正規化法と関数空間における凸正規化法を提案する。
この結果から,機能正規化はTarget Networksのドロップイン代替として利用でき,結果として性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-04T17:21:07Z) - Meta-Learning with Network Pruning [40.07436648243748]
本稿では,ネットワークのキャパシティを明示的に制御することで,ネットワークプルーニングに基づくメタラーニング手法を提案する。
我々はDense-Sparse-Dense (DSD) と Iterative Hard Thresholding (IHT) の2つのネットワークプルーニングルーチンを組み込んだReptile上でのアプローチを実装した。
論文 参考訳(メタデータ) (2020-07-07T06:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。