論文の概要: The Formalism-Implementation Gap in Reinforcement Learning Research
- arxiv url: http://arxiv.org/abs/2510.16175v2
- Date: Tue, 28 Oct 2025 14:06:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:20.158191
- Title: The Formalism-Implementation Gap in Reinforcement Learning Research
- Title(参考訳): 強化学習研究における形式主義-実装ギャップ
- Authors: Pablo Samuel Castro,
- Abstract要約: 本稿では、強化学習研究は、エージェント能力の実証にのみ焦点を絞ることをやめるべきである、と論じる。
ベンチマークが基礎となる数学的形式にどのようにマッピングされるか、より正確にする必要がある、と氏は主張する。
- 参考スコア(独自算出の注目度): 17.922282609849184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The last decade has seen an upswing in interest and adoption of reinforcement learning (RL) techniques, in large part due to its demonstrated capabilities at performing certain tasks at "super-human levels". This has incentivized the community to prioritize research that demonstrates RL agent performance, often at the expense of research aimed at understanding their learning dynamics. Performance-focused research runs the risk of overfitting on academic benchmarks -- thereby rendering them less useful -- which can make it difficult to transfer proposed techniques to novel problems. Further, it implicitly diminishes work that does not push the performance-frontier, but aims at improving our understanding of these techniques. This paper argues two points: (i) RL research should stop focusing solely on demonstrating agent capabilities, and focus more on advancing the science and understanding of reinforcement learning; and (ii) we need to be more precise on how our benchmarks map to the underlying mathematical formalisms. We use the popular Arcade Learning Environment (ALE; Bellemare et al., 2013) as an example of a benchmark that, despite being increasingly considered "saturated", can be effectively used for developing this understanding, and facilitating the deployment of RL techniques in impactful real-world problems.
- Abstract(参考訳): 過去10年間、強化学習(RL)技術への関心が高まり、「超人的レベル」で特定のタスクを実行する能力が証明されたため、多くが採用されている。
これによってコミュニティは、RLエージェントのパフォーマンスを示す研究を優先し、しばしば学習ダイナミクスの理解を目的とした研究を犠牲にして、コミュニティにインセンティブを与えている。
パフォーマンスを重視した研究は、学術ベンチマークに過度に適合するリスクを負う。
さらに、パフォーマンスを優先しない作業は暗黙的に減少させますが、これらのテクニックの理解を深めることを目指しています。
本論では2つの論点を論じる。
(i)RL研究は、エージェント能力の実証にのみ焦点を合わせず、科学の進歩と強化学習の理解に集中すべきである。
(ii) ベンチマークを基礎となる数学的形式にどのようにマッピングするかをより正確にする必要がある。
我々は、人気の高いアーケード学習環境(ALE, Bellemare et al , 2013)を、ますます「飽和」と見なされつつも、この理解を効果的に発展させ、実世界のインパクトのある問題へのRL技術の展開を促進することができるベンチマークの例として用いている。
関連論文リスト
- Demystifying Reinforcement Learning in Agentic Reasoning [90.3737088727791]
エージェント推論における強化学習のデミスティフィケーションのための包括的かつ体系的な調査を行う。
i) 縫合された合成軌道を、実際のエンドツーエンドのツール・ツー・ユース・トラジェクトリに置き換えることで、より強力なSFTが得られる。
探索フレンドリーな技術は、高いクリップ、過剰な報酬形成、適切なポリシーエントロピーの維持といったエージェントRLにとって不可欠であり、訓練効率を向上させることができる。
論文 参考訳(メタデータ) (2025-10-13T17:57:15Z) - Emergent Hierarchical Reasoning in LLMs through Reinforcement Learning [56.496001894673235]
強化学習(RL)は,大規模言語モデル(LLM)の複雑な推論能力の向上に有効であることが証明された。
解析の結果,アハモーメント,長さスケーリング,エントロピーのダイナミクスといったファズリング現象は異なる現象ではなく,創発的推論階層の目印であることがわかった。
論文 参考訳(メタデータ) (2025-09-03T18:52:49Z) - Inverse Reinforcement Learning Meets Large Language Model Post-Training: Basics, Advances, and Opportunities [62.05713042908654]
本稿では,逆強化学習(IRL)のレンズによる大規模言語モデル(LLM)のアライメントの進歩について概観する。
我々は、人間のデータからニューラル報酬モデルを構築する必要性を強調し、このパラダイムシフトの形式的および実践的意味について議論する。
論文 参考訳(メタデータ) (2025-07-17T14:22:24Z) - Beyond Accuracy: Dissecting Mathematical Reasoning for LLMs Under Reinforcement Learning [82.43575191712726]
本稿では,強化学習が推論に与える影響を明らかにするための,きめ細かい分析フレームワークを提案する。
本フレームワークは,RLトレーニングの恩恵を受けると仮定された重要な要素を具体的に調査する。
論文 参考訳(メタデータ) (2025-06-05T07:53:59Z) - Improving RL Exploration for LLM Reasoning through Retrospective Replay [45.00643118030677]
本稿では,Retrospective Replay-based Reinforcement Learning (RRL) という新しいアルゴリズムを提案する。
RRLにより、モデルが早期に特定された有望な状態を再検討し、探索の効率性と有効性を向上させることができる。
論文 参考訳(メタデータ) (2025-04-19T17:40:04Z) - R1-Searcher: Incentivizing the Search Capability in LLMs via Reinforcement Learning [87.30285670315334]
textbfR1-Searcherは、大規模言語モデルの検索能力を高めるために設計された、2段階の結果に基づく新しいRLアプローチである。
本フレームワークは, コールドスタート時に, プロセス報酬や蒸留を必要とせず, RLのみに依存している。
提案手法は, クローズドソースGPT-4o-miniと比較して, 従来の強力なRAG法よりも有意に優れていた。
論文 参考訳(メタデータ) (2025-03-07T17:14:44Z) - A Survey On Enhancing Reinforcement Learning in Complex Environments: Insights from Human and LLM Feedback [1.0359008237358598]
本稿では、まず、人間やLSMの補助に焦点をあて、これらの実体が最適な行動の促進と学習の迅速化のためにRLエージェントと協調する方法について検討し、また、大きな観測空間によって特徴づけられる環境の複雑さに対処する研究論文を探索する。
論文 参考訳(メタデータ) (2024-11-20T15:52:03Z) - Reinforcement Learning-assisted Evolutionary Algorithm: A Survey and
Research Opportunities [63.258517066104446]
進化的アルゴリズムの構成要素として統合された強化学習は,近年,優れた性能を示している。
本稿では,RL-EA 統合手法,RL-EA が採用する RL-EA 支援戦略,および既存文献による適用について論じる。
RL-EAセクションの適用例では、RL-EAのいくつかのベンチマークおよび様々な公開データセットにおける優れた性能を示す。
論文 参考訳(メタデータ) (2023-08-25T15:06:05Z) - Evolutionary Reinforcement Learning: A Survey [31.112066295496003]
強化学習(Reinforcement Learning、RL)は、エージェントが環境とのインタラクションを通じて累積報酬を最大化するように訓練する機械学習アプローチである。
本稿では、進化強化学習(EvoRL)と呼ばれる、ECをRLに統合するための最先端手法に関する総合的な調査を紹介する。
論文 参考訳(メタデータ) (2023-03-07T01:38:42Z) - An information-theoretic perspective on intrinsic motivation in
reinforcement learning: a survey [0.0]
本稿では,これらの研究成果を情報理論に基づく新たな分類法を用いて調査することを提案する。
我々は、サプライズ、ノベルティ、スキル学習の概念を計算的に再考する。
我々の分析は、新規性とサプライズがトランスファー可能なスキルの階層を構築するのに役立つことを示唆している。
論文 参考訳(メタデータ) (2022-09-19T09:47:43Z) - Survey on Fair Reinforcement Learning: Theory and Practice [9.783469272270896]
本稿では、強化学習(RL)フレームワークを用いて実装されたフェアネスアプローチについて概観する。
本稿では,RL法を適用した様々な実用的応用について論じる。
フェアRLの分野を前進させるために検討すべき主要な課題をいくつか取り上げる。
論文 参考訳(メタデータ) (2022-05-20T09:07:28Z) - Autonomous Reinforcement Learning: Formalism and Benchmarking [106.25788536376007]
人間や動物が行うような現実世界の具体的学習は、連続的で非エポゾディックな世界にある。
RLの一般的なベンチマークタスクはエピソジックであり、試行錯誤によってエージェントに複数の試行を行う環境がリセットされる。
この相違は、擬似環境向けに開発されたRLアルゴリズムを現実世界のプラットフォーム上で実行しようとする場合、大きな課題となる。
論文 参考訳(メタデータ) (2021-12-17T16:28:06Z) - Towards Continual Reinforcement Learning: A Review and Perspectives [69.48324517535549]
我々は,連続的強化学習(RL)に対する異なる定式化とアプローチの文献レビューの提供を目的とする。
まだ初期段階だが、継続的なrlの研究は、よりインクリメンタルな強化学習者を開発することを約束している。
これには、医療、教育、物流、ロボット工学などの分野の応用が含まれる。
論文 参考訳(メタデータ) (2020-12-25T02:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。