論文の概要: Reframing Offline Reinforcement Learning as a Regression Problem
- arxiv url: http://arxiv.org/abs/2401.11630v1
- Date: Sun, 21 Jan 2024 23:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:32:45.258285
- Title: Reframing Offline Reinforcement Learning as a Regression Problem
- Title(参考訳): 回帰問題としてのオフライン強化学習
- Authors: Prajwal Koirala and Cody Fleming
- Abstract要約: 本研究は,決定木を用いて解ける回帰問題として,オフライン強化学習の改革を提案する。
勾配木ではエージェントのトレーニングと推論が非常に高速であることが観察された。
この改良された問題に固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法に匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study proposes the reformulation of offline reinforcement learning as a
regression problem that can be solved with decision trees. Aiming to predict
actions based on input states, return-to-go (RTG), and timestep information, we
observe that with gradient-boosted trees, the agent training and inference are
very fast, the former taking less than a minute. Despite the simplification
inherent in this reformulated problem, our agent demonstrates performance that
is at least on par with established methods. This assertion is validated by
testing it across standard datasets associated with D4RL Gym-MuJoCo tasks. We
further discuss the agent's ability to generalize by testing it on two extreme
cases, how it learns to model the return distributions effectively even with
highly skewed expert datasets, and how it exhibits robust performance in
scenarios with sparse/delayed rewards.
- Abstract(参考訳): 本研究では,決定木で解ける回帰問題として,オフライン強化学習の改革を提案する。
入力状態,リターンツーゴー(rtg),タイムステップ情報に基づく行動予測を目標として,勾配ブーストツリーではエージェントトレーニングや推論が非常に高速であり,前者が1分未満の時間を要することを観測した。
この修正問題に内在する単純化にもかかわらず、エージェントは少なくとも確立された方法と同等の性能を示す。
このアサーションは、D4RL Gym-MuJoCoタスクに関連する標準データセットでテストすることで検証される。
さらに,2つの極端なケースでテストすることにより,エージェントが一般化する能力,高度に歪んだ専門家データセットでも効果的に返却分布をモデル化する方法,スパース/遅延報酬のあるシナリオにおける堅牢なパフォーマンスを示す方法についても論じた。
関連論文リスト
- Distilling Reinforcement Learning Policies for Interpretable Robot Locomotion: Gradient Boosting Machines and Symbolic Regression [53.33734159983431]
本稿では, ニューラルRLポリシをより解釈可能な形式に蒸留する新しい手法を提案する。
我々は、RLを用いて専門家のニューラルネットワークポリシーを訓練し、(i)GBM、(ii)EBM、(iii)シンボリックポリシーに蒸留する。
論文 参考訳(メタデータ) (2024-03-21T11:54:45Z) - Statistically Efficient Variance Reduction with Double Policy Estimation
for Off-Policy Evaluation in Sequence-Modeled Reinforcement Learning [53.97273491846883]
本稿では、オフラインシーケンスモデリングとオフライン強化学習をダブルポリシー推定と組み合わせたRLアルゴリズムDPEを提案する。
D4RLベンチマークを用いて,OpenAI Gymの複数のタスクで本手法を検証した。
論文 参考訳(メタデータ) (2023-08-28T20:46:07Z) - Explaining RL Decisions with Trajectories [28.261758841898697]
説明は、実世界の意思決定問題における強化学習(RL)導入の鍵となる要素である。
本稿では、これらの説明に対する補完的アプローチ、特にオフラインRLについて、トレーニング中に遭遇した軌跡に、訓練されたRLエージェントの政策決定を関連付けることを提案する。
論文 参考訳(メタデータ) (2023-05-06T15:26:22Z) - Boosting Offline Reinforcement Learning via Data Rebalancing [104.3767045977716]
オフライン強化学習(RL)は、学習ポリシーとデータセットの分散シフトによって問題となる。
本稿では,データセットの再サンプリングが分散サポートを一定に保っているという観察に基づいて,オフラインRLアルゴリズムをシンプルかつ効果的に向上させる手法を提案する。
ReD(Return-based Data Re Balance)メソッドをダブします。これは10行未満のコード変更で実装でき、無視できる実行時間を追加します。
論文 参考訳(メタデータ) (2022-10-17T16:34:01Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - FOCAL: Efficient Fully-Offline Meta-Reinforcement Learning via Distance
Metric Learning and Behavior Regularization [10.243908145832394]
本稿では, オフラインメタ強化学習(OMRL)問題について検討する。これは, 強化学習(RL)アルゴリズムが未知のタスクに迅速に適応できるようにするパラダイムである。
この問題はまだ完全には理解されていないが、2つの大きな課題に対処する必要がある。
我々は、いくつかの単純な設計選択が、最近のアプローチよりも大幅に改善できることを示す分析と洞察を提供する。
論文 参考訳(メタデータ) (2020-10-02T17:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。