論文の概要: State-Constrained Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.14374v1
- Date: Thu, 23 May 2024 09:50:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-24 15:54:01.906798
- Title: State-Constrained Offline Reinforcement Learning
- Title(参考訳): 状態制約付きオフライン強化学習
- Authors: Charles A. Hepburn, Yue Jin, Giovanni Montana,
- Abstract要約: そこで我々は,Emphstate-Constrained offline reinforcement learningという新しいフレームワークを紹介した。
我々のフレームワークは学習可能性を大幅に向上させ、過去の制限を減らします。
また、D4RLベンチマークデータセットでパフォーマンス駆動のディープラーニングアルゴリズムであるStaCQも導入しています。
- 参考スコア(独自算出の注目度): 9.38848713730931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional offline reinforcement learning methods predominantly operate in a batch-constrained setting. This confines the algorithms to a specific state-action distribution present in the dataset, reducing the effects of distributional shift but restricting the algorithm greatly. In this paper, we alleviate this limitation by introducing a novel framework named \emph{state-constrained} offline reinforcement learning. By exclusively focusing on the dataset's state distribution, our framework significantly enhances learning potential and reduces previous limitations. The proposed setting not only broadens the learning horizon but also improves the ability to combine different trajectories from the dataset effectively, a desirable property inherent in offline reinforcement learning. Our research is underpinned by solid theoretical findings that pave the way for subsequent advancements in this domain. Additionally, we introduce StaCQ, a deep learning algorithm that is both performance-driven on the D4RL benchmark datasets and closely aligned with our theoretical propositions. StaCQ establishes a strong baseline for forthcoming explorations in state-constrained offline reinforcement learning.
- Abstract(参考訳): 従来のオフライン強化学習法は主にバッチ制約された環境で運用される。
これにより、アルゴリズムはデータセットに存在する特定の状態-作用分布に限定され、分散シフトの影響は低減されるが、アルゴリズムは大幅に制限される。
本稿では, オフライン強化学習という新しいフレームワークを導入することにより, この制限を緩和する。
データセットの状態分布にのみ焦点をあてることで、我々のフレームワークは学習可能性を大幅に強化し、以前の制限を低減します。
提案した設定は学習の地平線を広げるだけでなく、オフラインの強化学習に固有の望ましい特性であるデータセットから異なる軌跡を効果的に組み合わせる能力を向上させる。
我々の研究は、この領域におけるその後の進歩の道を開く固い理論的な発見に支えられている。
さらに、D4RLベンチマークデータセットでパフォーマンス駆動のディープラーニングアルゴリズムであるStaCQを紹介します。
StaCQは、州が制限したオフライン強化学習において、今後の探索のための強力なベースラインを確立する。
関連論文リスト
- Integrating Domain Knowledge for handling Limited Data in Offline RL [10.068880918932415]
オフラインのRLアルゴリズムは、状態空間内の特定の領域に制限された限られたデータに直面した場合に、準最適に実行する。
本稿では、ドメイン知識に基づく新しい正規化手法を提案し、初期ドメイン知識を適応的に洗練し、部分的に省略された状態の限られたデータの性能を向上させる。
論文 参考訳(メタデータ) (2024-06-11T07:59:17Z) - Learning from Sparse Offline Datasets via Conservative Density
Estimation [27.93418377019955]
保守密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。
CDEはこの課題に対処し、州が占有する定常分布に明示的に制約を課す。
本手法はD4RLベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-16T20:42:15Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - Exploiting Action Impact Regularity and Exogenous State Variables for
Offline Reinforcement Learning [30.337391523928396]
我々は,オフライン強化学習の保証を得るために,制限されたMDPのクラスを探究する。
本稿では,Action Impact Regularity(AIR)特性を利用するアルゴリズムについて論じ,Fitted-Q Iterationに基づくアルゴリズムの理論解析を行う。
このアルゴリズムは,シミュレーションおよび実環境において,異なるデータ収集ポリシー間で,既存のオフライン強化学習アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-15T20:14:18Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Constrained episodic reinforcement learning in concave-convex and
knapsack settings [81.08055425644037]
コンケーブ報酬と凸制約のある設定に対して、強力な理論的保証を持つモジュラー解析を提供する。
実験により,提案アルゴリズムは既存の制約付きエピソード環境において,これらの手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-06-09T05:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。