論文の概要: Turning Sand to Gold: Recycling Data to Bridge On-Policy and Off-Policy Learning via Causal Bound
- arxiv url: http://arxiv.org/abs/2507.11269v1
- Date: Tue, 15 Jul 2025 12:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:03.110327
- Title: Turning Sand to Gold: Recycling Data to Bridge On-Policy and Off-Policy Learning via Causal Bound
- Title(参考訳): 砂を金に変える: リサイクルデータをオン・プライスとオフ・プライス・ラーニングの橋渡しに
- Authors: Tal Fiskus, Uri Shaham,
- Abstract要約: 我々は、Neyman-Rubin ポテンシャル結果フレームワークをDRLに活用する新しい理論結果を紹介した。
反事実的損失の境界に焦点をあてるほとんどの方法とは異なり、我々は事実的損失に因果関係を確立する。
このバウンダリは、過去の値ネットワーク出力をエクスペリエンス再生バッファに格納することで計算される。
- 参考スコア(独自算出の注目度): 4.350004414611934
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Deep reinforcement learning (DRL) agents excel in solving complex decision-making tasks across various domains. However, they often require a substantial number of training steps and a vast experience replay buffer, leading to significant computational and resource demands. To address these challenges, we introduce a novel theoretical result that leverages the Neyman-Rubin potential outcomes framework into DRL. Unlike most methods that focus on bounding the counterfactual loss, we establish a causal bound on the factual loss, which is analogous to the on-policy loss in DRL. This bound is computed by storing past value network outputs in the experience replay buffer, effectively utilizing data that is usually discarded. Extensive experiments across the Atari 2600 and MuJoCo domains on various agents, such as DQN and SAC, achieve up to 2,427% higher reward ratio, outperforming the same agents without our proposed term, and reducing the experience replay buffer size by up to 96%, significantly improving sample efficiency at negligible cost.
- Abstract(参考訳): 深層強化学習(DRL)エージェントは、様々な領域にわたる複雑な意思決定タスクの解決に優れている。
しかし、それらは多くの場合、かなりの数のトレーニングステップと膨大な経験のリプレイバッファを必要とするため、計算とリソースの要求が大きくなります。
これらの課題に対処するために、Neyman-Rubinの潜在的な結果フレームワークをDRLに活用する新たな理論的結果を導入する。
対物的損失の境界に焦点をあてるほとんどの方法とは異なり、DRLの政治的損失と類似した、事実的損失に因果関係を定めている。
このバウンダリは、過去の値ネットワーク出力をエクスペリエンス再生バッファに格納することで計算される。
DQN や SAC などの各種エージェントに対する Atari 2600 ドメインおよび MuJoCo ドメインの広範囲にわたる実験により,最大2,427% の報酬率を実現し,提案項を使わずに同じエージェントを性能良くし,バッファサイズを最大96% 削減し,試料効率を著しく向上した。
関連論文リスト
- The Courage to Stop: Overcoming Sunk Cost Fallacy in Deep Reinforcement Learning [19.01686700722506]
オフ政治深層学習(RL)は、通常、学習中に過去の経験を再利用するためにリプレイバッファを利用する。
このような非形式的で無駄なトランジションをサンプリングすることは、沈むコストの低下に対処することで回避できる、と我々は主張する。
本稿では,戦略的早期終了を可能にする軽量なメカニズムであるLearning to Stop (LEAST)を提案する。
論文 参考訳(メタデータ) (2025-06-16T16:30:00Z) - Trajectory Balance with Asynchrony: Decoupling Exploration and Learning for Fast, Scalable LLM Post-Training [71.16258800411696]
強化学習(Reinforcement Learning, RL)は、大規模言語モデル(LLM)のポストトレーニングにおいて重要な要素である。
ポストトレーニングに使われている既存のオンラインアルゴリズムは、経験的リプレイバッファの使用と本質的に相容れない。
本稿では,TBA(Trajectory Balance with Asynchrony)によるバッファの再生を効率よく行うことを提案する。
論文 参考訳(メタデータ) (2025-03-24T17:51:39Z) - Reevaluating Policy Gradient Methods for Imperfect-Information Games [94.45878689061335]
我々は,不完全情報ゲームにおけるDRLアルゴリズムの最大利用可能性比較を行う。
FP-、DO-、CFR-ベースのアプローチは、一般的なポリシー勾配法を上回りません。
論文 参考訳(メタデータ) (2025-02-13T03:38:41Z) - Towards Sample-Efficiency and Generalization of Transfer and Inverse Reinforcement Learning: A Comprehensive Literature Review [50.67937325077047]
本稿では,転送および逆強化学習(T-IRL)によるRLアルゴリズムのサンプル効率と一般化を実現するための総合的なレビューを行う。
以上の結果から,最近の研究成果の大部分は,人間のループとシム・トゥ・リアル戦略を活用することで,上記の課題に対処していることが示唆された。
IRL構造の下では、経験の少ない移行と、そのようなフレームワークのマルチエージェントおよびマルチインテンション問題への拡張を必要とするトレーニングスキームが近年研究者の優先事項となっている。
論文 参考訳(メタデータ) (2024-11-15T15:18:57Z) - Stop Regressing: Training Value Functions via Classification for
Scalable Deep RL [109.44370201929246]
分類的クロスエントロピーを用いた値関数のトレーニングにより,様々な領域における性能とスケーラビリティが向上することを示す。
例えば、SoftMoEによるAtari 2600ゲームでのシングルタスクRL、大規模ResNetによるAtariでのマルチタスクRL、Q-トランスフォーマーによるロボット操作、検索なしでチェスをプレイする、高容量トランスフォーマーによる言語エージェントWordleタスクなどがある。
論文 参考訳(メタデータ) (2024-03-06T18:55:47Z) - Reinforcement Learning from Bagged Reward [46.16904382582698]
強化学習(RL)では、エージェントが取るアクション毎に即時報奨信号が生成されることが一般的である。
多くの実世界のシナリオでは、即時報酬信号の設計は困難である。
本稿では,双方向の注意機構を備えた新たな報酬再分配手法を提案する。
論文 参考訳(メタデータ) (2024-02-06T07:26:44Z) - Episodic Reinforcement Learning with Expanded State-reward Space [1.479675621064679]
本稿では, 入力として使用する拡張状態と, トレーニングで使用する拡張報酬が, 履歴情報と現在の情報の両方を含むような, 拡張された状態逆空間を持つ効率的なECベースのDRLフレームワークを提案する。
提案手法は,検索情報の完全活用と時間差分(TD)損失による状態値の評価を同時に行うことができる。
論文 参考訳(メタデータ) (2024-01-19T06:14:36Z) - Replay across Experiments: A Natural Extension of Off-Policy RL [18.545939667810565]
複数の実験にまたがってリプレイを効果的に拡張するフレームワークを提案する。
コアとなるReplay Across Experiments (RaE)は、以前の実験からの経験を再利用して、探索とブートストラップ学習を改善する。
我々は、多数のRLアルゴリズムにまたがる利点を実証的に示し、移動と操作の両方にまたがる制御領域に挑戦する。
論文 参考訳(メタデータ) (2023-11-27T15:57:11Z) - FIRE: A Failure-Adaptive Reinforcement Learning Framework for Edge Computing Migrations [52.85536740465277]
FIREは、エッジコンピューティングのディジタルツイン環境でRLポリシーをトレーニングすることで、まれなイベントに適応するフレームワークである。
ImREは重要なサンプリングに基づくQ-ラーニングアルゴリズムであり、希少事象をその値関数への影響に比例してサンプリングする。
FIREは故障時にバニラRLやグリーディベースラインと比較してコストを削減できることを示す。
論文 参考訳(メタデータ) (2022-09-28T19:49:39Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Stratified Experience Replay: Correcting Multiplicity Bias in Off-Policy
Reinforcement Learning [17.3794999533024]
深部RLは異常なデータの存在に苦慮しているように見える。
近年の研究では、DQN(Deep Q-Network)の性能はリプレイメモリが大きすぎると劣化することが示された。
我々は,リプレイメモリ上で一様にサンプリングする動機を再検討し,関数近似を用いた場合の欠陥を見出した。
論文 参考訳(メタデータ) (2021-02-22T19:29:18Z) - Deep Reinforcement Learning with Quantum-inspired Experience Replay [6.833294755109369]
経験的リプレイを伴う深部強化学習(DRL)のために,量子計算にインスパイアされた新しいトレーニングパラダイムを提案する。
量子インスパイアされた体験リプレイ(DRL-QER)を用いた深層強化学習は、各体験の複雑さと再生時間に応じてリプレイバッファから経験を適応的に選択する(トランジションとも呼ばれる)。
Atari 2600ゲームに関する実験結果は、DRL-QERがDRL-PERやDCRLなどの最先端のアルゴリズムを上回り、トレーニング効率が向上したことを示している。
論文 参考訳(メタデータ) (2021-01-06T13:52:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。