論文の概要: State-Constrained Offline Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2405.14374v2
- Date: Mon, 14 Jul 2025 18:36:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-16 19:46:02.687973
- Title: State-Constrained Offline Reinforcement Learning
- Title(参考訳): 状態制約付きオフライン強化学習
- Authors: Charles A. Hepburn, Yue Jin, Giovanni Montana,
- Abstract要約: 我々は、データセットの状態分布にのみ焦点をあてた新しいフレームワークである、状態制約付きオフラインRLを紹介した。
また、D4RLベンチマークデータセット上で最先端のパフォーマンスを実現するディープラーニングアルゴリズムであるStaCQについても紹介する。
- 参考スコア(独自算出の注目度): 9.38848713730931
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Traditional offline reinforcement learning (RL) methods predominantly operate in a batch-constrained setting. This confines the algorithms to a specific state-action distribution present in the dataset, reducing the effects of distributional shift but restricting the policy to seen actions. In this paper, we alleviate this limitation by introducing state-constrained offline RL, a novel framework that focuses solely on the dataset's state distribution. This approach allows the policy to take high-quality out-of-distribution actions that lead to in-distribution states, significantly enhancing learning potential. The proposed setting not only broadens the learning horizon but also improves the ability to combine different trajectories from the dataset effectively, a desirable property inherent in offline RL. Our research is underpinned by theoretical findings that pave the way for subsequent advancements in this area. Additionally, we introduce StaCQ, a deep learning algorithm that achieves state-of-the-art performance on the D4RL benchmark datasets and aligns with our theoretical propositions. StaCQ establishes a strong baseline for forthcoming explorations in this domain.
- Abstract(参考訳): 従来のオフライン強化学習(RL)法は主にバッチ制約環境で運用される。
これにより、アルゴリズムはデータセットに存在する特定の状態-作用分布に限定され、分布シフトの影響は低減されるが、アクションを見るためのポリシーは制限される。
本稿では、データセットの状態分布にのみ焦点をあてた新しいフレームワークである、状態制約付きオフラインRLを導入することにより、この制限を緩和する。
このアプローチにより、政策は、非流通状態につながる高品質なアウト・オブ・ディストリビューション行動を取ることができ、学習可能性を大幅に向上させることができる。
提案した設定は学習の地平線を広げるだけでなく、オフラインのRLに固有の望ましい特性であるデータセットから異なる軌跡を効果的に組み合わせる能力も向上する。
我々の研究は、この領域におけるその後の進歩の道を開く理論的な発見に支えられている。
さらに、D4RLベンチマークデータセット上で最先端のパフォーマンスを達成し、我々の理論的命題に適合するディープラーニングアルゴリズムであるStaCQを紹介する。
StaCQはこの領域における今後の探査の強力なベースラインを確立している。
関連論文リスト
- Integrating Domain Knowledge for handling Limited Data in Offline RL [10.068880918932415]
オフラインのRLアルゴリズムは、状態空間内の特定の領域に制限された限られたデータに直面した場合に、準最適に実行する。
本稿では、ドメイン知識に基づく新しい正規化手法を提案し、初期ドメイン知識を適応的に洗練し、部分的に省略された状態の限られたデータの性能を向上させる。
論文 参考訳(メタデータ) (2024-06-11T07:59:17Z) - Out-of-Distribution Adaptation in Offline RL: Counterfactual Reasoning via Causal Normalizing Flows [30.926243761581624]
CNF(Causal Normalizing Flow)は、オフラインポリシー評価とトレーニングにおいて、データ生成と拡張のための遷移関数と報酬関数を学習するために開発された。
CNFは、シーケンシャルな意思決定タスクに対する予測的および反ファクト的推論能力を獲得し、OOD適応の可能性を明らかにしている。
我々のCNFベースのオフラインRLアプローチは経験的評価によって検証され、モデルフリーおよびモデルベース手法よりもかなりのマージンで性能が向上する。
論文 参考訳(メタデータ) (2024-05-06T22:44:32Z) - Learning from Sparse Offline Datasets via Conservative Density
Estimation [27.93418377019955]
保守密度推定(CDE)と呼ばれる新しいトレーニングアルゴリズムを提案する。
CDEはこの課題に対処し、州が占有する定常分布に明示的に制約を課す。
本手法はD4RLベンチマークにおける最先端性能を実現する。
論文 参考訳(メタデータ) (2024-01-16T20:42:15Z) - Bridging Distributionally Robust Learning and Offline RL: An Approach to
Mitigate Distribution Shift and Partial Data Coverage [32.578787778183546]
オフライン強化学習(RL)アルゴリズムは、過去の(オフライン)データを用いて最適な警察を学習する。
オフラインRLの主な課題の1つは、分散シフトである。
分散ロバスト学習(DRL)フレームワークを用いた2つのオフラインRLアルゴリズムを提案する。
論文 参考訳(メタデータ) (2023-10-27T19:19:30Z) - Action-Quantized Offline Reinforcement Learning for Robotic Skill
Learning [68.16998247593209]
オフライン強化学習(RL)パラダイムは、静的な行動データセットを、データを収集したポリシーよりも優れたパフォーマンスのポリシーに変換するためのレシピを提供する。
本稿では,アクション量子化のための適応型スキームを提案する。
IQL,CQL,BRACといった最先端のオフラインRL手法が,提案手法と組み合わせることで,ベンチマークのパフォーマンスが向上することを示す。
論文 参考訳(メタデータ) (2023-10-18T06:07:10Z) - The Cascaded Forward Algorithm for Neural Network Training [61.06444586991505]
本稿では,ニューラルネットワークのための新しい学習フレームワークであるCascaded Forward(CaFo)アルゴリズムを提案する。
FFとは異なり、我々のフレームワークは各カスケードブロックのラベル分布を直接出力する。
我々のフレームワークでは、各ブロックは独立して訓練できるので、並列加速度システムに容易に展開できる。
論文 参考訳(メタデータ) (2023-03-17T02:01:11Z) - Offline Reinforcement Learning with Adaptive Behavior Regularization [1.491109220586182]
オフライン強化学習(RL)は、静的で以前に収集されたデータセットからポリシーを学習する、サンプル効率のよい学習パラダイムを定義する。
適応行動正規化(Adaptive Behavior regularization, ABR)と呼ばれる新しい手法を提案する。
ABRは、データセットの生成に使用するポリシーのクローン化と改善の間に、ポリシーの最適化目標を適応的に調整することを可能にする。
論文 参考訳(メタデータ) (2022-11-15T15:59:11Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Regularizing a Model-based Policy Stationary Distribution to Stabilize
Offline Reinforcement Learning [62.19209005400561]
オフライン強化学習(RL)は、古典的なRLアルゴリズムのパラダイムを拡張して、静的データセットから純粋に学習する。
オフラインRLの鍵となる課題は、オフラインデータの分布と学習されたポリシーの定常状態分布とのミスマッチによって引き起こされるポリシートレーニングの不安定性である。
政策最適化プロセス中にオフラインデータに対する現在の方針の定常分布を正規化する。
論文 参考訳(メタデータ) (2022-06-14T20:56:16Z) - Offline Stochastic Shortest Path: Learning, Evaluation and Towards
Optimality [57.91411772725183]
本稿では,状態空間と動作空間が有限である場合のオフライン最短経路問題について考察する。
オフラインポリシ評価(OPE)とオフラインポリシ学習タスクの両方を扱うための,シンプルな値ベースアルゴリズムを設計する。
これらの単純なアルゴリズムの解析は、極小値に近い最悪のケース境界を示唆する強いインスタンス依存境界をもたらす。
論文 参考訳(メタデータ) (2022-06-10T07:44:56Z) - RORL: Robust Offline Reinforcement Learning via Conservative Smoothing [72.8062448549897]
オフライン強化学習は、複雑な意思決定タスクに大量のオフラインデータを活用できる。
現在のオフラインRLアルゴリズムは一般に、値推定とアクション選択のために保守的に設計されている。
本稿では,ロバストオフライン強化学習(RORL)を提案する。
論文 参考訳(メタデータ) (2022-06-06T18:07:41Z) - Exploiting Action Impact Regularity and Exogenous State Variables for
Offline Reinforcement Learning [30.337391523928396]
我々は,オフライン強化学習の保証を得るために,制限されたMDPのクラスを探究する。
本稿では,Action Impact Regularity(AIR)特性を利用するアルゴリズムについて論じ,Fitted-Q Iterationに基づくアルゴリズムの理論解析を行う。
このアルゴリズムは,シミュレーションおよび実環境において,異なるデータ収集ポリシー間で,既存のオフライン強化学習アルゴリズムよりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-15T20:14:18Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - Instabilities of Offline RL with Pre-Trained Neural Representation [127.89397629569808]
オフライン強化学習(RL)では、オフラインデータを利用して、評価対象のポリシーのそれとは大きく異なる分布からデータが収集されるシナリオでポリシーを評価する(または学習する)ことを目指しています。
最近の理論的進歩は、そのようなサンプル効率の良いオフラインRLが確かにある強い表現条件が保持されることを示した。
本研究は,オフラインrlメソッドの安定性を評価するために,経験的視点からこれらの問題を考察する。
論文 参考訳(メタデータ) (2021-03-08T18:06:44Z) - Constrained episodic reinforcement learning in concave-convex and
knapsack settings [81.08055425644037]
コンケーブ報酬と凸制約のある設定に対して、強力な理論的保証を持つモジュラー解析を提供する。
実験により,提案アルゴリズムは既存の制約付きエピソード環境において,これらの手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2020-06-09T05:02:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。