論文の概要: Sparse-Reg: Improving Sample Complexity in Offline Reinforcement Learning using Sparsity
- arxiv url: http://arxiv.org/abs/2506.17155v2
- Date: Thu, 26 Jun 2025 21:55:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-30 13:06:01.310452
- Title: Sparse-Reg: Improving Sample Complexity in Offline Reinforcement Learning using Sparsity
- Title(参考訳): Sparse-Reg: 疎度を用いたオフライン強化学習におけるサンプル複雑度の改善
- Authors: Samin Yeasar Arnob, Scott Fujimoto, Doina Precup,
- Abstract要約: スパース・レグ(Sparse-Reg)は、オフライン強化学習における過度適合を軽減するために、スパースをベースとした正規化手法である。
オフラインのRLアルゴリズムは、小さなデータセットに過度に適合し、結果として性能が低下することを示す。
- 参考スコア(独自算出の注目度): 40.998188469865184
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we investigate the use of small datasets in the context of offline reinforcement learning (RL). While many common offline RL benchmarks employ datasets with over a million data points, many offline RL applications rely on considerably smaller datasets. We show that offline RL algorithms can overfit on small datasets, resulting in poor performance. To address this challenge, we introduce "Sparse-Reg": a regularization technique based on sparsity to mitigate overfitting in offline reinforcement learning, enabling effective learning in limited data settings and outperforming state-of-the-art baselines in continuous control.
- Abstract(参考訳): 本稿では,オフライン強化学習(RL)における小さなデータセットの利用について検討する。
多くのオフラインRLベンチマークは100万以上のデータポイントを持つデータセットを使用しているが、多くのオフラインRLアプリケーションは、かなり小さなデータセットに依存している。
オフラインのRLアルゴリズムは、小さなデータセットに過度に適合し、結果として性能が低下することを示す。
この課題に対処するために、オフライン強化学習におけるオーバーフィッティングを軽減し、限られたデータ設定での効果的な学習を可能にし、継続的な制御における最先端のベースラインよりも優れたパフォーマンスを実現するために、スパース・レグ(Sparse-Reg)を導入した。
関連論文リスト
- Fewer May Be Better: Enhancing Offline Reinforcement Learning with Reduced Dataset [29.573555134322543]
オフライン強化学習(RL)により、エージェントは環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学習することができる。
オフラインRLにおける重要な課題は、オフラインデータセットの最適なサブセットを選択することだ。
本稿では、勾配近似最適化問題としてデータセット選択をフレーム化するReDORを提案する。
論文 参考訳(メタデータ) (2025-02-26T09:08:47Z) - Look Beneath the Surface: Exploiting Fundamental Symmetry for
Sample-Efficient Offline RL [29.885978495034703]
オフライン強化学習(RL)は、事前にコンパイルされたデータセットからポリシーを学ぶことによって、現実世界のタスクに魅力的なアプローチを提供する。
しかし、既存のオフラインRLアルゴリズムの性能はデータセットのスケールと状態-アクション空間カバレッジに大きく依存する。
システム力学の基本対称性を活用することで、小さなデータセット下でのオフラインRL性能を大幅に向上できるという新たな知見を提供する。
論文 参考訳(メタデータ) (2023-06-07T07:51:05Z) - Efficient Online Reinforcement Learning with Offline Data [78.92501185886569]
オンライン学習時にオフラインデータを活用するために、既存のオフライン手法を単純に適用できることを示します。
私たちはこれらの設計選択を広範囲に改善し、パフォーマンスに最も影響を与える重要な要因を示します。
これらのシンプルなレコメンデーションの正しい適用によって、既存のアプローチよりも$mathbf2.5times$の改善が得られます。
論文 参考訳(メタデータ) (2023-02-06T17:30:22Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Don't Change the Algorithm, Change the Data: Exploratory Data for
Offline Reinforcement Learning [147.61075994259807]
オフラインRLに対するデータ中心型アプローチであるオフラインRL(ExORL)の探索データを提案する。
ExORLは最初、教師なしの報酬のない探索でデータを生成し、オフラインのRLでポリシーをトレーニングする前に、そのデータを下流の報酬でラベル付けする。
探索データにより、オフライン固有の変更なしに、バニラオフポリティRLアルゴリズムが、ダウンストリームタスクで最先端のオフラインRLアルゴリズムより優れているか、あるいは一致することが判明した。
論文 参考訳(メタデータ) (2022-01-31T18:39:27Z) - Critic Regularized Regression [70.8487887738354]
批判正規化回帰(CRR)形式を用いてデータからポリシーを学習するための新しいオフラインRLアルゴリズムを提案する。
CRRは驚くほどよく動作し、高次元の状態と行動空間を持つタスクにスケールする。
論文 参考訳(メタデータ) (2020-06-26T17:50:26Z) - D4RL: Datasets for Deep Data-Driven Reinforcement Learning [119.49182500071288]
オフラインRLのリアルタイムアプリケーションに関連するデータセットのキープロパティによってガイドされるオフライン設定用に特別に設計されたベンチマークを紹介する。
部分的に訓練されたRLエージェントによって収集された単純なベンチマークタスクやデータを超えて、既存のアルゴリズムの重要かつ未承認な欠陥を明らかにする。
論文 参考訳(メタデータ) (2020-04-15T17:18:19Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。