Fugu-MT 論文翻訳(概要): Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning With Iterated Q-Learning

論文の概要: Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning With Iterated Q-Learning

arxiv url: http://arxiv.org/abs/2506.04398v1
Date: Wed, 04 Jun 2025 19:27:29 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-06 21:53:49.396898
Title: Bridging the Performance Gap Between Target-Free and Target-Based Reinforcement Learning With Iterated Q-Learning
Title（参考訳）: 繰り返しQ-Learningによるターゲットフリーとターゲットベース強化学習のパフォーマンス向上
Authors: Théo Vincent, Yogesh Tripathi, Tim Faust, Yaniv Oren, Jan Peters, Carlo D'Eramo,
Abstract要約: 価値に基づく強化学習では、目標ネットワークの除去が誘惑され、最新推定値から目標を引き上げる。我々は,オンラインネットワークの最後の線形層のコピーをターゲットネットワークとして使用し,残りのパラメータを最新のオンラインネットワークと共有することを提案する。これにより,連続したベルマン反復を並列に学習する,反復型Q-ラーニングの概念を活用できる。
参考スコア（独自算出の注目度）: 16.37956160356348
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: In value-based reinforcement learning, removing the target network is tempting as the boostrapped target would be built from up-to-date estimates, and the spared memory occupied by the target network could be reallocated to expand the capacity of the online network. However, eliminating the target network introduces instability, leading to a decline in performance. Removing the target network also means we cannot leverage the literature developed around target networks. In this work, we propose to use a copy of the last linear layer of the online network as a target network, while sharing the remaining parameters with the up-to-date online network, hence stepping out of the binary choice between target-based and target-free methods. It enables us to leverage the concept of iterated Q-learning, which consists of learning consecutive Bellman iterations in parallel, to reduce the performance gap between target-free and target-based approaches. Our findings demonstrate that this novel method, termed iterated Shared Q-Learning (iS-QL), improves the sample efficiency of target-free approaches across various settings. Importantly, iS-QL requires a smaller memory footprint and comparable training time to classical target-based algorithms, highlighting its potential to scale reinforcement learning research.
Abstract（参考訳）: 価値に基づく強化学習では、最新の推定値から、ターゲットネットワークを削除し、ターゲットネットワークが占有する余剰メモリを再配置して、オンラインネットワークの容量を拡大するので、ターゲットネットワークの除去は誘惑的である。しかし、ターゲットネットワークをなくすと不安定になり、性能が低下する。また,対象ネットワークの除去は,対象ネットワークを中心に開発された文献を活用できないことを意味している。本研究では,オンラインネットワークの最後の線形層のコピーをターゲットネットワークとして使用し,残りのパラメータを最新のオンラインネットワークと共有することを提案する。これにより、連続するベルマン反復を並列に学習する反復Q-ラーニングの概念を活用することができ、ターゲットフリーとターゲットベースアプローチのパフォーマンスギャップを低減することができる。提案手法は,iS-QL(iS-QL)と呼ばれる新しい手法により,様々な設定において,ターゲットフリーアプローチのサンプル効率が向上することを示す。重要な点として、iS-QLはメモリフットプリントを小さくし、古典的なターゲットベースアルゴリズムに匹敵するトレーニング時間を必要とし、強化学習研究をスケールする可能性を強調している。

関連論文リスト

Network Sparsity Unlocks the Scaling Potential of Deep Reinforcement Learning [57.3885832382455]
静的ネットワークの疎結合を単独で導入することで,最先端アーキテクチャの高密度化を超えて,さらなるスケーリング可能性を実現することができることを示す。解析の結果,高密度DRLネットワークをネーティブにスケールアップするのとは対照的に,疎ネットワークは高いパラメータ効率とネットワーク表現性を両立させることがわかった。
論文参考訳（メタデータ） (2025-06-20T17:54:24Z)
Online Network Source Optimization with Graph-Kernel MAB [62.6067511147939]
大規模ネットワークにおける最適なソース配置をオンラインで学習するためのグラフカーネルマルチアームバンディットアルゴリズムであるGrab-UCBを提案する。適応グラフ辞書モデルを用いて,ネットワークプロセスを記述する。我々は、ネットワークパラメータに依存する性能保証を導出し、シーケンシャルな意思決定戦略の学習曲線にさらに影響を及ぼす。
論文参考訳（メタデータ） (2023-07-07T15:03:42Z)
Why Target Networks Stabilise Temporal Difference Methods [38.35578010611503]
そこで本研究では, 厳密な規則性条件と目標ネットワーク更新頻度の調整により, 収束が保証されることを示す。我々は,TD更新のヤコビアンにおいて,ターゲットネットワークの利用が条件の悪さの影響を軽減することができると結論付けた。
論文参考訳（メタデータ） (2023-02-24T09:46:00Z)
Discrete Factorial Representations as an Abstraction for Goal Conditioned Reinforcement Learning [99.38163119531745]
離散化ボトルネックを適用することにより,目標条件付きRLセットアップの性能が向上することを示す。分布外目標に対する期待した回帰を実験的に証明し、同時に表現的な構造で目標を指定できるようにします。
論文参考訳（メタデータ） (2022-11-01T03:31:43Z)
Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
関数空間における凸正規化器であり、容易に調整できる明示的な関数正規化を提案する。提案手法の収束を理論的・実験的に解析し,より理論的に根ざした機能正規化アプローチでターゲットネットワークを置き換えることにより,サンプリング効率と性能が向上することが実証された。
論文参考訳（メタデータ） (2022-10-21T22:27:07Z)
Continual Learning with Dependency Preserving Hypernetworks [14.102057320661427]
継続学習(CL)問題に対処するための効果的なアプローチは、ターゲットネットワークのタスク依存重みを生成するハイパーネットワークを使用することである。本稿では,パラメータの効率を保ちながら,依存関係保存型ハイパーネットワークを用いて対象ネットワークの重み付けを生成する手法を提案する。さらに,RNNベースのハイパーネットワークのための新しい正規化手法とネットワーク成長手法を提案し,継続学習性能をさらに向上させる。
論文参考訳（メタデータ） (2022-09-16T04:42:21Z)
Generative multitask learning mitigates target-causing confounding [61.21582323566118]
マルチタスク学習のための因果表現学習のためのシンプルでスケーラブルなアプローチを提案する。改善は、目標を狙うが入力はしない、観測されていない共同ファウンダーを緩和することによる。人の属性とタスクノミーのデータセットに対する我々の結果は、事前の確率シフトに対するロバストネスの概念的改善を反映している。
論文参考訳（メタデータ） (2022-02-08T20:42:14Z)
Cascaded Compressed Sensing Networks: A Reversible Architecture for Layerwise Learning [11.721183551822097]
提案手法は, 補助ネットワークを必要とせずに, 圧縮センシングにより各層にネットワークをモデル化することにより, 対象の伝搬を実現することができることを示す。実験により,提案手法は補助的なネットワークベース手法よりも優れた性能が得られることが示された。
論文参考訳（メタデータ） (2021-10-20T05:21:13Z)
Bridging the Gap Between Target Networks and Functional Regularization [61.051716530459586]
ターゲットネットワークは暗黙の正則化器として機能し、いくつかのケースでは有益であるが、欠点もある。本稿では,フレキシブルな関数正規化法と関数空間における凸正規化法を提案する。この結果から,機能正規化はTarget Networksのドロップイン代替として利用でき,結果として性能が向上することが示唆された。
論文参考訳（メタデータ） (2021-06-04T17:21:07Z)
Meta-Learning with Network Pruning [40.07436648243748]
本稿では,ネットワークのキャパシティを明示的に制御することで,ネットワークプルーニングに基づくメタラーニング手法を提案する。我々はDense-Sparse-Dense (DSD) と Iterative Hard Thresholding (IHT) の2つのネットワークプルーニングルーチンを組み込んだReptile上でのアプローチを実装した。
論文参考訳（メタデータ） (2020-07-07T06:13:11Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。