論文の概要: Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning With Iterated Q-Learning
- arxiv url: http://arxiv.org/abs/2506.04398v1
- Date: Wed, 04 Jun 2025 19:27:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-06 21:53:49.396898
- Title: Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning With Iterated Q-Learning
- Title(参考訳): 繰り返しQ-Learningによるターゲットフリーとターゲットベース強化学習のパフォーマンス向上
- Authors: Théo Vincent, Yogesh Tripathi, Tim Faust, Yaniv Oren, Jan Peters, Carlo D'Eramo,
- Abstract要約: 価値に基づく強化学習では、目標ネットワークの除去が誘惑され、最新推定値から目標を引き上げる。
我々は,オンラインネットワークの最後の線形層のコピーをターゲットネットワークとして使用し,残りのパラメータを最新のオンラインネットワークと共有することを提案する。
これにより,連続したベルマン反復を並列に学習する,反復型Q-ラーニングの概念を活用できる。
- 参考スコア(独自算出の注目度): 16.37956160356348
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: In value-based reinforcement learning, removing the target network is tempting as the boostrapped target would be built from up-to-date estimates, and the spared memory occupied by the target network could be reallocated to expand the capacity of the online network. However, eliminating the target network introduces instability, leading to a decline in performance. Removing the target network also means we cannot leverage the literature developed around target networks. In this work, we propose to use a copy of the last linear layer of the online network as a target network, while sharing the remaining parameters with the up-to-date online network, hence stepping out of the binary choice between target-based and target-free methods. It enables us to leverage the concept of iterated Q-learning, which consists of learning consecutive Bellman iterations in parallel, to reduce the performance gap between target-free and target-based approaches. Our findings demonstrate that this novel method, termed iterated Shared Q-Learning (iS-QL), improves the sample efficiency of target-free approaches across various settings. Importantly, iS-QL requires a smaller memory footprint and comparable training time to classical target-based algorithms, highlighting its potential to scale reinforcement learning research.
- Abstract(参考訳): 価値に基づく強化学習では、最新の推定値から、ターゲットネットワークを削除し、ターゲットネットワークが占有する余剰メモリを再配置して、オンラインネットワークの容量を拡大するので、ターゲットネットワークの除去は誘惑的である。
しかし、ターゲットネットワークをなくすと不安定になり、性能が低下する。
また,対象ネットワークの除去は,対象ネットワークを中心に開発された文献を活用できないことを意味している。
本研究では,オンラインネットワークの最後の線形層のコピーをターゲットネットワークとして使用し,残りのパラメータを最新のオンラインネットワークと共有することを提案する。
これにより、連続するベルマン反復を並列に学習する反復Q-ラーニングの概念を活用することができ、ターゲットフリーとターゲットベースアプローチのパフォーマンスギャップを低減することができる。
提案手法は,iS-QL(iS-QL)と呼ばれる新しい手法により,様々な設定において,ターゲットフリーアプローチのサンプル効率が向上することを示す。
重要な点として、iS-QLはメモリフットプリントを小さくし、古典的なターゲットベースアルゴリズムに匹敵するトレーニング時間を必要とし、強化学習研究をスケールする可能性を強調している。
関連論文リスト
- Use the Online Network If You Can: Towards Fast and Stable Reinforcement Learning [22.6796319984868]
本稿では,ターゲットネットワークとオンラインネットワーク間の最小推定値を用いてターゲットを演算する新しい更新ルールを提案する。
MINTOは、ブートストラップにオンラインネットワークを使用する際の潜在的な過大評価バイアスを軽減し、より高速で安定した値関数学習を可能にする。
我々はMINTOを様々なベンチマークで広く評価し、オンラインとオフラインのRL、そして離散かつ連続的なアクション空間にまたがる。
論文 参考訳(メタデータ) (2025-10-02T21:48:01Z) - Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。
解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文 参考訳(メタデータ) (2025-06-20T17:54:24Z) - Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。
適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。
我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文 参考訳(メタデータ) (2023-07-07T15:03:42Z) - Why Target Networks Stabilise Temporal Difference Methods [38.35578010611503]
そこで本研究では, 厳密な規則性条件と目標ネットワーク更新頻度の調整により, 収束が保証されることを示す。
我々は,TD更新のヤコビアンにおいて,ターゲットネットワークの利用が条件の悪さの影響を軽減することができると結論付けた。
論文 参考訳(メタデータ) (2023-02-24T09:46:00Z) - Discrete Factorial Representations as an Abstraction for Goal
Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。
分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文 参考訳(メタデータ) (2022-11-01T03:31:43Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。
提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文 参考訳(メタデータ) (2022-10-21T22:27:07Z) - Continual Learning with Dependency Preserving Hypernetworks [14.102057320661427]
継続学習(CL)問題に対処するための効果的なアプローチは、ターゲットネットワークのタスク依存重みを生成するハイパーネットワークを使用することである。
本稿では,パラメータの効率を保ちながら,依存関係保存型ハイパーネットワークを用いて対象ネットワークの重み付けを生成する手法を提案する。
さらに,RNNベースのハイパーネットワークのための新しい正規化手法とネットワーク成長手法を提案し,継続学習性能をさらに向上させる。
論文 参考訳(メタデータ) (2022-09-16T04:42:21Z) - Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。
改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。
人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文 参考訳(メタデータ) (2022-02-08T20:42:14Z) - C-Planning: An Automatic Curriculum for Learning Goal-Reaching Tasks [133.40619754674066]
ゴール条件強化学習は、ナビゲーションや操作を含む幅広い領域のタスクを解決できる。
本研究では,学習時間における探索を用いて,中間状態を自動生成する遠隔目標獲得タスクを提案する。
E-stepはグラフ検索を用いて最適な経路点列を計画することに対応し、M-stepはそれらの経路点に到達するための目標条件付きポリシーを学習することを目的としている。
論文 参考訳(メタデータ) (2021-10-22T22:05:31Z) - Cascaded Compressed Sensing Networks: A Reversible Architecture for
Layerwise Learning [11.721183551822097]
提案手法は, 補助ネットワークを必要とせずに, 圧縮センシングにより各層にネットワークをモデル化することにより, 対象の伝搬を実現することができることを示す。
実験により,提案手法は補助的なネットワークベース手法よりも優れた性能が得られることが示された。
論文 参考訳(メタデータ) (2021-10-20T05:21:13Z) - Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
ターゲットネットワークは暗黙の正則化器として機能し、いくつかのケースでは有益であるが、欠点もある。
本稿では,フレキシブルな関数正規化法と関数空間における凸正規化法を提案する。
この結果から,機能正規化はTarget Networksのドロップイン代替として利用でき,結果として性能が向上することが示唆された。
論文 参考訳(メタデータ) (2021-06-04T17:21:07Z) - All at Once Network Quantization via Collaborative Knowledge Transfer [56.95849086170461]
オールオンス量子化ネットワークを効率的にトレーニングするための新しい共同知識伝達アプローチを開発しています。
具体的には、低精度の学生に知識を伝達するための高精度のエンクォータを選択するための適応的選択戦略を提案する。
知識を効果的に伝達するために,低精度の学生ネットワークのブロックを高精度の教師ネットワークのブロックにランダムに置き換える動的ブロックスワッピング法を開発した。
論文 参考訳(メタデータ) (2021-03-02T03:09:03Z) - Decoupled and Memory-Reinforced Networks: Towards Effective Feature
Learning for One-Step Person Search [65.51181219410763]
歩行者検出と識別サブタスクを1つのネットワークで処理するワンステップ方式を開発しました。
現在のワンステップアプローチには2つの大きな課題があります。
本稿では,これらの問題を解決するために,分離メモリ強化ネットワーク(DMRNet)を提案する。
論文 参考訳(メタデータ) (2021-02-22T06:19:45Z) - MetaGater: Fast Learning of Conditional Channel Gated Networks via
Federated Meta-Learning [46.79356071007187]
本稿では,バックボーンネットワークとチャネルゲーティングを協調的にトレーニングするための総合的なアプローチを提案する。
我々は,バックボーンネットワークとゲーティングモジュールの両方において,優れたメタ初期化を共同で学習するための,連携型メタ学習手法を開発した。
論文 参考訳(メタデータ) (2020-11-25T04:26:23Z) - Meta-Learning with Network Pruning [40.07436648243748]
本稿では,ネットワークのキャパシティを明示的に制御することで,ネットワークプルーニングに基づくメタラーニング手法を提案する。
我々はDense-Sparse-Dense (DSD) と Iterative Hard Thresholding (IHT) の2つのネットワークプルーニングルーチンを組み込んだReptile上でのアプローチを実装した。
論文 参考訳(メタデータ) (2020-07-07T06:13:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。