論文の概要: Revisiting the Minimalist Approach to Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2305.09836v2
- Date: Tue, 24 Oct 2023 09:10:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-26 01:06:29.889657
- Title: Revisiting the Minimalist Approach to Offline Reinforcement Learning
- Title(参考訳): オフライン強化学習へのミニマリストアプローチの再検討
- Authors: Denis Tarasov, Vladislav Kurenkov, Alexander Nikulin, Sergey
Kolesnikov
- Abstract要約: ReBRACはTD3+BC法上に構築された設計要素を統合する最小限のアルゴリズムである。
D4RLとV-D4RLのベンチマークを用いて,51データセット上のReBRACの評価を行った。
- 参考スコア(独自算出の注目度): 52.0035089982277
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent years have witnessed significant advancements in offline reinforcement
learning (RL), resulting in the development of numerous algorithms with varying
degrees of complexity. While these algorithms have led to noteworthy
improvements, many incorporate seemingly minor design choices that impact their
effectiveness beyond core algorithmic advances. However, the effect of these
design choices on established baselines remains understudied. In this work, we
aim to bridge this gap by conducting a retrospective analysis of recent works
in offline RL and propose ReBRAC, a minimalistic algorithm that integrates such
design elements built on top of the TD3+BC method. We evaluate ReBRAC on 51
datasets with both proprioceptive and visual state spaces using D4RL and V-D4RL
benchmarks, demonstrating its state-of-the-art performance among ensemble-free
methods in both offline and offline-to-online settings. To further illustrate
the efficacy of these design choices, we perform a large-scale ablation study
and hyperparameter sensitivity analysis on the scale of thousands of
experiments.
- Abstract(参考訳): 近年、オフライン強化学習(rl)が大幅に進歩し、複雑さの度合いの異なる多数のアルゴリズムが開発された。
これらのアルゴリズムは注目すべき改善をもたらしたが、多くは中核的なアルゴリズムの進歩を超えてその有効性に影響を与える一見小さな設計選択を取り入れている。
しかし、これらの設計選択が確立されたベースラインに与える影響は未定である。
本稿では,オフラインrlにおける最近の作業のふりかえり分析を行い,td3+bc法上に構築された設計要素を統合する最小化アルゴリズムであるrebracを提案することで,このギャップを埋めることを目的とする。
D4RLとV-D4RLのベンチマークを用いて51のデータセット上のReBRACの評価を行い、オフラインとオフラインの両方の設定におけるアンサンブルフリーメソッド間の最先端性能を実証した。
これらの設計選択の有効性をさらに説明するために、数千の実験で大規模なアブレーション研究とハイパーパラメータ感度分析を行う。
関連論文リスト
- Simple Ingredients for Offline Reinforcement Learning [86.1988266277766]
オフライン強化学習アルゴリズムは、ターゲット下流タスクに高度に接続されたデータセットに有効であることが証明された。
既存の手法が多様なデータと競合することを示す。その性能は、関連するデータ収集によって著しく悪化するが、オフラインバッファに異なるタスクを追加するだけでよい。
アルゴリズム的な考慮以上のスケールが、パフォーマンスに影響を及ぼす重要な要因であることを示す。
論文 参考訳(メタデータ) (2024-03-19T18:57:53Z) - On Sample-Efficient Offline Reinforcement Learning: Data Diversity,
Posterior Sampling, and Beyond [29.449446595110643]
本稿では、オフラインRLにおけるカバレッジ対策の以前の概念を仮定したデータ多様性の概念を提案する。
オフラインRLのためのモデルなしPSベースのアルゴリズムは、自然界において頻繁(即ち最悪の場合)な準最適境界を持つ新しいアルゴリズムである。
論文 参考訳(メタデータ) (2024-01-06T20:52:04Z) - Continuous-Time Reinforcement Learning: New Design Algorithms with
Theoretical Insights and Performance Guarantees [4.248962756649803]
本稿では,一組の(分散化された)励起積分強化学習(EIRL)アルゴリズムを紹介する。
我々は不安定な非最小位相超音速車両を制御する重要な応用問題に対して収束と閉ループ安定性を保証する。
論文 参考訳(メタデータ) (2023-07-18T01:36:43Z) - Improving and Benchmarking Offline Reinforcement Learning Algorithms [87.67996706673674]
この作業は、低レベルの選択とデータセットによって引き起こされるギャップを埋めることを目的としている。
3つの代表アルゴリズムを用いて20の実装選択を実証的に検討する。
CRR+とCQL+の2つの変種がD4RL上で新たな最先端を実現している。
論文 参考訳(メタデータ) (2023-06-01T17:58:46Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Ensemble Reinforcement Learning in Continuous Spaces -- A Hierarchical
Multi-Step Approach for Policy Training [4.982806898121435]
本稿では,革新的な多段階統合手法に基づいて,基礎学習者のアンサンブルを訓練する手法を提案する。
本手法は,学習者間コラボレーションを効果的に促進するアンサンブルDRLのための新しい階層学習アルゴリズムの開発を可能にする。
また、このアルゴリズムは複数のベンチマークRL問題に対していくつかの最先端のDRLアルゴリズムより優れていることを示す。
論文 参考訳(メタデータ) (2022-09-29T00:42:44Z) - Challenges and Opportunities in Offline Reinforcement Learning from
Visual Observations [58.758928936316785]
連続的な行動空間を持つ視覚的観察からオフラインの強化学習は未探索のままである。
2つの一般的な視覚に基づくオンライン強化学習アルゴリズムの変更は、既存のオフラインRL法より優れていることを示す。
論文 参考訳(メタデータ) (2022-06-09T22:08:47Z) - Behavioral Priors and Dynamics Models: Improving Performance and Domain
Transfer in Offline RL [82.93243616342275]
適応行動優先型オフラインモデルに基づくRL(Adaptive Behavioral Priors:MABE)を導入する。
MABEは、ドメイン内の一般化をサポートする動的モデルと、ドメイン間の一般化をサポートする振る舞いの事前が相補的であることの発見に基づいている。
クロスドメインの一般化を必要とする実験では、MABEが先行手法より優れていることが判明した。
論文 参考訳(メタデータ) (2021-06-16T20:48:49Z) - On Multi-objective Policy Optimization as a Tool for Reinforcement
Learning: Case Studies in Offline RL and Finetuning [24.264618706734012]
より効率的な深層強化学習アルゴリズムの開発方法について述べる。
ケーススタディとして,オフラインRLとファインタニングに注目した。
専門家の混合蒸留(DiME)について紹介する
オフラインのRLでは、DMEが最先端のアルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-06-15T14:59:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。