論文の概要: Horizon Reduction Makes RL Scalable
- arxiv url: http://arxiv.org/abs/2506.04168v1
- Date: Wed, 04 Jun 2025 17:06:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-05 21:20:14.483942
- Title: Horizon Reduction Makes RL Scalable
- Title(参考訳): RLをスケーラブルにする水平縮小
- Authors: Seohong Park, Kevin Frans, Deepinder Mann, Benjamin Eysenbach, Aviral Kumar, Sergey Levine,
- Abstract要約: オフライン強化学習(RL)アルゴリズムのスケーラビリティについて検討する。
通常のオフラインRLデータセットの最大1000倍のデータセットを使用します。
オフラインRLのスケール不足の主な原因は地平線にあることを示す。
- 参考スコア(独自算出の注目度): 78.67071359991218
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we study the scalability of offline reinforcement learning (RL) algorithms. In principle, a truly scalable offline RL algorithm should be able to solve any given problem, regardless of its complexity, given sufficient data, compute, and model capacity. We investigate if and how current offline RL algorithms match up to this promise on diverse, challenging, previously unsolved tasks, using datasets up to 1000x larger than typical offline RL datasets. We observe that despite scaling up data, many existing offline RL algorithms exhibit poor scaling behavior, saturating well below the maximum performance. We hypothesize that the horizon is the main cause behind the poor scaling of offline RL. We empirically verify this hypothesis through several analysis experiments, showing that long horizons indeed present a fundamental barrier to scaling up offline RL. We then show that various horizon reduction techniques substantially enhance scalability on challenging tasks. Based on our insights, we also introduce a minimal yet scalable method named SHARSA that effectively reduces the horizon. SHARSA achieves the best asymptotic performance and scaling behavior among our evaluation methods, showing that explicitly reducing the horizon unlocks the scalability of offline RL. Code: https://github.com/seohongpark/horizon-reduction
- Abstract(参考訳): 本研究では,オフライン強化学習(RL)アルゴリズムのスケーラビリティについて検討する。
原則として、真にスケーラブルなオフラインRLアルゴリズムは、その複雑さに関わらず、十分なデータ、計算能力、モデル容量を与えられた上で、任意の問題を解決することができるべきである。
我々は、現在のオフラインRLアルゴリズムが、従来のオフラインRLデータセットの最大1000倍の大きさのデータセットを使用して、多種多様で困難で未解決なタスクにおいて、この約束にどのように一致するかを調査する。
データのスケールアップにもかかわらず、既存のオフラインRLアルゴリズムの多くは、スケーリングの振る舞いが悪く、最大性能よりかなり低い。
我々は、この地平線がオフラインRLのスケール不足の主な原因であると仮定する。
いくつかの解析実験を通してこの仮説を実証的に検証し、長い地平線が実際にオフラインのRLをスケールアップするための基本的な障壁であることを示した。
次に,種々の水平方向低減手法が課題のスケーラビリティを大幅に向上させることを示す。
我々の知見に基づいて、我々は、水平線を効果的に削減する最小かつスケーラブルなSHARSA法も導入した。
SHARSAは評価手法の中で最高の漸近的性能とスケーリングの挙動を達成し,水平線を明示的に減らしてオフラインRLのスケーラビリティを解放することを示した。
コード:https://github.com/seohongpark/horizon-reduction
関連論文リスト
- On the Statistical Complexity for Offline and Low-Adaptive Reinforcement Learning with Structures [63.36095790552758]
本稿では、オフラインおよび低適応環境における強化学習(RL)の統計的基礎に関する最近の進歩を概観する。
まず最初に、オフラインRLが、RLを使用する最近のAIブレークスルーとは無関係であっても、ほぼすべての実生活のML問題に対して適切なモデルである理由について議論する。
オフラインポリシー評価(OPE)とオフラインポリシー学習(OPL)という,オフラインRLの基本的な2つの問題に展開する。
論文 参考訳(メタデータ) (2025-01-03T20:27:53Z) - D5RL: Diverse Datasets for Data-Driven Deep Reinforcement Learning [99.33607114541861]
ロボット操作と移動環境の現実的なシミュレーションに焦点を当てたオフラインRLのための新しいベンチマークを提案する。
提案するベンチマークでは、状態ベースドメインと画像ベースドメインを対象とし、オフラインRLとオンライン微調整評価の両方をサポートしている。
論文 参考訳(メタデータ) (2024-08-15T22:27:00Z) - Improving Offline RL by Blending Heuristics [33.810026421228635]
Heuristic Blendingは、値ブートストラップに基づくオフラインRLアルゴリズムの性能を改善する。
HubLは、4つの最先端ブートストラップベースのオフラインRLアルゴリズムのポリシー品質を一貫して改善する。
論文 参考訳(メタデータ) (2023-06-01T03:36:06Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Single-Shot Pruning for Offline Reinforcement Learning [47.886329599997474]
深層強化学習(Deep Reinforcement Learning, RL)は、複雑な現実世界の問題を解決するための強力なフレームワークである。
この問題に対処するひとつの方法は、必要なパラメータだけを残したニューラルネットワークをプルークすることです。
我々は,RLと単発プルーニングのギャップを埋め,オフラインRLに対する一般的なプルーニング手法を提案する。
論文 参考訳(メタデータ) (2021-12-31T18:10:02Z) - A Minimalist Approach to Offline Reinforcement Learning [10.904148149681932]
オフライン強化学習は、固定されたデータのバッチから学習するタスクを定義する。
本稿では,最小限の変更を行いながら,深いRLアルゴリズムを実現することを目的とする。
オンラインRLアルゴリズムのポリシー更新に振舞いクローン項を追加するだけで、最先端のオフラインRLアルゴリズムの性能にマッチできることがわかった。
論文 参考訳(メタデータ) (2021-06-12T20:38:59Z) - Offline Reinforcement Learning from Images with Latent Space Models [60.69745540036375]
オフライン強化学習(RL)とは、環境相互作用の静的データセットからポリシーを学習する問題を指します。
オフラインRLのためのモデルベースアルゴリズムの最近の進歩の上に構築し、それらを高次元の視覚観測空間に拡張する。
提案手法は, 実測可能であり, 未知のPOMDPにおけるELBOの下限の最大化に対応している。
論文 参考訳(メタデータ) (2020-12-21T18:28:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。