論文の概要: A Clean Slate for Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2504.11453v1
- Date: Tue, 15 Apr 2025 17:59:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-16 22:10:59.951499
- Title: A Clean Slate for Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習のためのクリーンスレート
- Authors: Matthew Thomas Jackson, Uljad Berdica, Jarek Liesen, Shimon Whiteson, Jakob Nicolaus Foerster,
- Abstract要約: オフライン強化学習(RL)は曖昧な問題定義と絡み合ったアルゴリズム設計によって妨げられている。
我々は、厳格な分類法と、オンラインチューニング予算を明確に定量化する透明な評価プロトコルを導入する。
我々は,TD3-AWR(モデルフリー)とMoBRAC(モデルベース)という,確立されたベースラインを大幅に上回る2つの新しいアルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 30.87055102715522
- License:
- Abstract: Progress in offline reinforcement learning (RL) has been impeded by ambiguous problem definitions and entangled algorithmic designs, resulting in inconsistent implementations, insufficient ablations, and unfair evaluations. Although offline RL explicitly avoids environment interaction, prior methods frequently employ extensive, undocumented online evaluation for hyperparameter tuning, complicating method comparisons. Moreover, existing reference implementations differ significantly in boilerplate code, obscuring their core algorithmic contributions. We address these challenges by first introducing a rigorous taxonomy and a transparent evaluation protocol that explicitly quantifies online tuning budgets. To resolve opaque algorithmic design, we provide clean, minimalistic, single-file implementations of various model-free and model-based offline RL methods, significantly enhancing clarity and achieving substantial speed-ups. Leveraging these streamlined implementations, we propose Unifloral, a unified algorithm that encapsulates diverse prior approaches within a single, comprehensive hyperparameter space, enabling algorithm development in a shared hyperparameter space. Using Unifloral with our rigorous evaluation protocol, we develop two novel algorithms - TD3-AWR (model-free) and MoBRAC (model-based) - which substantially outperform established baselines. Our implementation is publicly available at https://github.com/EmptyJackson/unifloral.
- Abstract(参考訳): オフライン強化学習(RL)の進歩は、曖昧な問題定義と絡み合ったアルゴリズム設計によって妨げられ、不整合の実装、不十分な改善、不公平な評価をもたらす。
オフラインRLは環境の相互作用を明示的に避けるが、従来の手法では、ハイパーパラメータチューニングのための広範で文書化されていないオンライン評価を用いて、手法の比較を複雑にすることが多い。
さらに、既存の参照実装はボイラープレートコードで大きく異なり、コアアルゴリズムのコントリビューションは無視されている。
まず、厳格な分類法と、オンラインチューニング予算を明確化する透明な評価プロトコルを導入することで、これらの課題に対処する。
不透明なアルゴリズム設計を解決するため,様々なモデルフリーおよびモデルベースオフラインRL手法のクリーンで最小限の単一ファイル実装を提供し,明確性を大幅に向上し,大幅な高速化を実現した。
これらの合理化実装を活用することで、Unifloralは、単一の包括的ハイパーパラメータ空間内に様々な事前アプローチをカプセル化して、共有ハイパーパラメータ空間内でのアルゴリズム開発を可能にする統一アルゴリズムである。
厳密な評価プロトコルでUnifloralを用いて、確立されたベースラインを大幅に上回るTD3-AWR(モデルフリー)とMoBRAC(モデルベース)の2つの新しいアルゴリズムを開発した。
私たちの実装はhttps://github.com/EmptyJackson/unifloral.comで公開されています。
関連論文リスト
- SAIL: Self-Improving Efficient Online Alignment of Large Language Models [56.59644677997827]
人間のフィードバックからの強化学習は、大きな言語モデルを人間の好みに合わせるための重要な方法である。
近年の文献では、オンラインRLHF法の設計に焦点が当てられているが、統一された概念的定式化はいまだに欠けている。
提案手法は,計算オーバーヘッドを最小限に抑えたオープンソースデータセットのアライメント性能を著しく向上させる。
論文 参考訳(メタデータ) (2024-06-21T18:05:35Z) - On Sample-Efficient Offline Reinforcement Learning: Data Diversity,
Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。
オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-06T20:52:04Z) - Iterative Preference Learning from Human Feedback: Bridging Theory and Practice for RLHF under KL-Constraint [56.74058752955209]
本稿では,RLHFによる強化学習を用いた生成モデルのアライメント過程について検討する。
まず、オフラインPPOやオフラインDPOのような既存の一般的な手法の主な課題を、環境の戦略的探索に欠如していると認識する。
有限サンプル理論保証を用いた効率的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-12-18T18:58:42Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Maximize to Explore: One Objective Function Fusing Estimation, Planning,
and Exploration [87.53543137162488]
我々はtextttMEX というオンライン強化学習(オンラインRL)フレームワークを提案する。
textttMEXは、自動的に探索エクスプロイトのバランスをとりながら、見積もりと計画コンポーネントを統合する。
様々な MuJoCo 環境では,ベースラインを安定的なマージンで上回り,十分な報酬を得られる。
論文 参考訳(メタデータ) (2023-05-29T17:25:26Z) - A Strong Baseline for Batch Imitation Learning [25.392006064406967]
厳密なデータパラダイムの下での模倣学習のための,実装が容易で斬新なアルゴリズムを提供する。
このパラダイムにより、安全やコストが重要となる環境において、我々のアルゴリズムが利用できるようになる。
論文 参考訳(メタデータ) (2023-02-06T14:03:33Z) - Making Linear MDPs Practical via Contrastive Representation Learning [101.75885788118131]
マルコフ決定過程(MDP)における次元性の呪いに、低ランク表現を利用することで対処することが一般的である。
本稿では,効率的な表現学習を可能にしつつ,正規化を自動的に保証する線形MDPの代替的定義について考察する。
いくつかのベンチマークにおいて、既存の最先端モデルベースおよびモデルフリーアルゴリズムよりも優れた性能を示す。
論文 参考訳(メタデータ) (2022-07-14T18:18:02Z) - Comparing Model-free and Model-based Algorithms for Offline
Reinforcement Learning [3.1848563608930505]
各種産業ベンチマーク(IB)データセットにおけるモデルフリー、モデルベース、およびハイブリッドオフラインRLアプローチを比較した。
IBでは、ハイブリッドアプローチは厳しい困難に直面しており、ロールアウトベースのアルゴリズムやより単純な正規化アルゴリズムによるモデルフリーアルゴリズムなど、より単純なアルゴリズムが最適であることがわかった。
論文 参考訳(メタデータ) (2022-01-14T13:08:19Z) - COMBO: Conservative Offline Model-Based Policy Optimization [120.55713363569845]
ディープニューラルネットワークのような複雑なモデルによる不確実性推定は困難であり、信頼性が低い。
我々は,サポート外状態動作の値関数を正規化するモデルベースオフラインRLアルゴリズムCOMBOを開発した。
従来のオフラインモデルフリーメソッドやモデルベースメソッドと比べて、comboは一貫してパフォーマンスが良いことが分かりました。
論文 参考訳(メタデータ) (2021-02-16T18:50:32Z) - MOPO: Model-based Offline Policy Optimization [183.6449600580806]
オフライン強化学習(英語: offline reinforcement learning, RL)とは、以前に収集された大量のデータから完全に学習ポリシーを学習する問題を指す。
既存のモデルベースRLアルゴリズムは,すでにオフライン設定において大きな利益を上げていることを示す。
本稿では,既存のモデルに基づくRL法を,力学の不確実性によって人為的に罰せられる報酬で適用することを提案する。
論文 参考訳(メタデータ) (2020-05-27T08:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。