論文の概要: Counteractive RL: Rethinking Core Principles for Efficient and Scalable Deep Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.15871v1
- Date: Mon, 16 Mar 2026 19:59:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:06.971955
- Title: Counteractive RL: Rethinking Core Principles for Efficient and Scalable Deep Reinforcement Learning
- Title(参考訳): Counteractive RL: 効率的かつスケーラブルな深層強化学習のためのコア原則の再考
- Authors: Ezgi Korkmaz,
- Abstract要約: 本研究では,学習段階におけるエージェントと環境との相互作用に着目した。
本稿では,反作用によって得られた経験に基づく理論的に確立された新しいパラダイムを紹介する。
我々の分析と手法は、効率的な、効果的で、スケーラブルで、加速的な学習の理論的基盤を提供する。
- 参考スコア(独自算出の注目度): 16.041484242548837
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Following the pivotal success of learning strategies to win at tasks, solely by interacting with an environment without any supervision, agents have gained the ability to make sequential decisions in complex MDPs. Yet, reinforcement learning policies face exponentially growing state spaces in high dimensional MDPs resulting in a dichotomy between computational complexity and policy success. In our paper we focus on the agent's interaction with the environment in a high-dimensional MDP during the learning phase and we introduce a theoretically-founded novel paradigm based on experiences obtained through counteractive actions. Our analysis and method provide a theoretical basis for efficient, effective, scalable and accelerated learning, and further comes with zero additional computational complexity while leading to significant acceleration in training. We conduct extensive experiments in the Arcade Learning Environment with high-dimensional state representation MDPs. The experimental results further verify our theoretical analysis, and our method achieves significant performance increase with substantial sample-efficiency in high-dimensional environments.
- Abstract(参考訳): タスクに勝つための学習戦略が重要な成功をおさめた後、エージェントは監督なしで環境と対話することで、複雑なMDPでシーケンシャルな決定を下すことができるようになった。
しかし、強化学習政策は、高次元のMDPにおいて指数関数的に増加する状態空間に直面するため、計算複雑性と政策成功の差が生じる。
本稿では,学習段階における高次元MDPにおけるエージェントと環境との相互作用に着目し,反作用による経験に基づく理論的に確立された新しいパラダイムを提案する。
我々の分析と手法は、効率的で、効果的で、スケーラブルで、加速された学習の理論的基盤を提供する。
我々は,高次元状態表現型MDPを用いたアーケード学習環境において,広範囲にわたる実験を行った。
実験結果は,我々の理論解析をさらに検証し,本手法は高次元環境においてかなりの試料効率で顕著な性能向上を実現する。
関連論文リスト
- Sample-Efficient Neurosymbolic Deep Reinforcement Learning [49.60927398960061]
本稿では,背景記号知識を統合し,サンプル効率を向上させるニューロシンボリックディープRL手法を提案する。
オンライン推論は2つのメカニズムを通じてトレーニングプロセスのガイドを行う。
我々は、最先端の報奨機ベースラインよりも優れた性能を示す。
論文 参考訳(メタデータ) (2026-01-06T09:28:53Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - Decomposing the Entropy-Performance Exchange: The Missing Keys to Unlocking Effective Reinforcement Learning [106.68304931854038]
検証可能な報酬付き強化学習(RLVR)は、大規模言語モデル(LLM)の推論能力を高めるために広く用いられている。
我々は,RLVRのエントロピー・パフォーマンス交換機構を,異なるレベルの粒度で系統的に解析する。
分析の結果, 上昇段階において, 負のサンプルのエントロピー減少は効果的な推論パターンの学習を促進することが明らかとなった。
プラトー段階では、学習効率は、低エントロピーのサンプルに存在する高エントロピートークンと、シーケンスの終端に位置するトークンと強く相関する。
論文 参考訳(メタデータ) (2025-08-04T10:08:10Z) - Sample-Efficient Reinforcement Learning with Temporal Logic Objectives: Leveraging the Task Specification to Guide Exploration [13.053013407015628]
本稿では,不確実な力学を持つシステムに対する最適制御ポリシーの学習問題に対処する。
本稿では,競争的アプローチよりもはるかに高速に制御ポリシーを学習できる高速化されたRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-16T00:53:41Z) - Spatio-temporal Value Semantics-based Abstraction for Dense Deep Reinforcement Learning [1.4542411354617986]
Intelligent Cyber-Physical Systems (ICPS)は、CPS(Cyber-Physical System)の特殊な形態を表す。
CNNとDeep Reinforcement Learning (DRL)は、知覚、意思決定、制御を含む多面的なタスクを実行する。
DRLは意思決定プロセスにおける効率性、一般化能力、データの不足という観点で、課題に直面している。
本研究では空間時間値意味論に基づく革新的な抽象的モデリング手法を提案する。
論文 参考訳(メタデータ) (2024-05-24T02:21:10Z) - Human-Inspired Framework to Accelerate Reinforcement Learning [1.6317061277457001]
強化学習(Reinforcement Learning, RL)は、データサイエンスの意思決定において重要であるが、サンプルの不効率に悩まされている。
本稿では,RLアルゴリズムのサンプル効率を向上させるための,人間に触発された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2023-02-28T13:15:04Z) - Scalable PAC-Bayesian Meta-Learning via the PAC-Optimal Hyper-Posterior:
From Theory to Practice [54.03076395748459]
メタラーニング文学の中心的な疑問は、目に見えないタスクへの一般化を保証するために、いかに正規化するかである。
本稿では,Rothfussらによって最初に導かれたメタラーニングの一般化について述べる。
PAC-Bayesian per-task 学習境界におけるメタラーニングの条件と程度について,理論的解析および実証事例研究を行った。
論文 参考訳(メタデータ) (2022-11-14T08:51:04Z) - Deep Active Learning by Leveraging Training Dynamics [57.95155565319465]
本稿では,学習力学を最大化するためにサンプルを選択する理論駆動型深層能動学習法(Dynamical)を提案する。
動的学習は、他のベースラインを一貫して上回るだけでなく、大規模なディープラーニングモデルでもうまくスケール可能であることを示す。
論文 参考訳(メタデータ) (2021-10-16T16:51:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。