論文の概要: Reframing Offline Reinforcement Learning as a Regression Problem
- arxiv url: http://arxiv.org/abs/2401.11630v1
- Date: Sun, 21 Jan 2024 23:50:46 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-23 15:32:45.258285
- Title: Reframing Offline Reinforcement Learning as a Regression Problem
- Title(参考訳): 回帰問題としてのオフライン強化学習
- Authors: Prajwal Koirala and Cody Fleming
- Abstract要約: 本研究は,決定木を用いて解ける回帰問題として,オフライン強化学習の改革を提案する。
勾配木ではエージェントのトレーニングと推論が非常に高速であることが観察された。
この改良された問題に固有の単純化にもかかわらず、我々のエージェントは、少なくとも確立された手法に匹敵する性能を示す。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The study proposes the reformulation of offline reinforcement learning as a
regression problem that can be solved with decision trees. Aiming to predict
actions based on input states, return-to-go (RTG), and timestep information, we
observe that with gradient-boosted trees, the agent training and inference are
very fast, the former taking less than a minute. Despite the simplification
inherent in this reformulated problem, our agent demonstrates performance that
is at least on par with established methods. This assertion is validated by
testing it across standard datasets associated with D4RL Gym-MuJoCo tasks. We
further discuss the agent's ability to generalize by testing it on two extreme
cases, how it learns to model the return distributions effectively even with
highly skewed expert datasets, and how it exhibits robust performance in
scenarios with sparse/delayed rewards.
- Abstract(参考訳): 本研究では,決定木で解ける回帰問題として,オフライン強化学習の改革を提案する。
入力状態,リターンツーゴー(rtg),タイムステップ情報に基づく行動予測を目標として,勾配ブーストツリーではエージェントトレーニングや推論が非常に高速であり,前者が1分未満の時間を要することを観測した。
この修正問題に内在する単純化にもかかわらず、エージェントは少なくとも確立された方法と同等の性能を示す。
このアサーションは、D4RL Gym-MuJoCoタスクに関連する標準データセットでテストすることで検証される。
さらに,2つの極端なケースでテストすることにより,エージェントが一般化する能力,高度に歪んだ専門家データセットでも効果的に返却分布をモデル化する方法,スパース/遅延報酬のあるシナリオにおける堅牢なパフォーマンスを示す方法についても論じた。
関連論文リスト
- Dissecting Deep RL with High Update Ratios: Combatting Value
Overestimation and Divergence [22.55105343651415]
本研究では,ネットワークパラメータをリセットすることなく,勾配更新回数が環境サンプル数よりはるかに多い設定で深層強化学習が学習可能であることを示す。
このような大規模な更新とデータの比率の下で、Nikishinら(2022年)による最近の研究は、エージェントが早期の相互作用と後期の体験に過度に適合する優先バイアスの出現を示唆している。
論文 参考訳(メタデータ) (2024-03-09T19:56:40Z) - Rethinking Classifier Re-Training in Long-Tailed Recognition: A Simple
Logits Retargeting Approach [102.0769560460338]
我々は,クラスごとのサンプル数に関する事前知識を必要とせず,シンプルなロジットアプローチ(LORT)を開発した。
提案手法は,CIFAR100-LT, ImageNet-LT, iNaturalist 2018など,様々な不均衡データセットの最先端性能を実現する。
論文 参考訳(メタデータ) (2024-03-01T03:27:08Z) - Noisy Self-Training with Synthetic Queries for Dense Retrieval [49.49928764695172]
合成クエリと組み合わせた,ノイズの多い自己学習フレームワークを提案する。
実験結果から,本手法は既存手法よりも一貫した改善が得られた。
我々の手法はデータ効率が良く、競争のベースラインより優れています。
論文 参考訳(メタデータ) (2023-11-27T06:19:50Z) - Augmenting Unsupervised Reinforcement Learning with Self-Reference [63.68018737038331]
人間は、新しいタスクを学ぶ際に、過去の経験を明確に表現する能力を持っている。
本稿では,歴史情報を活用するためのアドオンモジュールとして,自己参照(SR)アプローチを提案する。
提案手法は,非教師付き強化学習ベンチマークにおけるIQM(Interquartile Mean)性能と最適ギャップ削減の両面から,最先端の成果を実現する。
論文 参考訳(メタデータ) (2023-11-16T09:07:34Z) - Streaming Active Learning for Regression Problems Using Regression via
Classification [12.572218568705376]
本稿では,回帰学習のためのストリーミング能動学習にレグレッション・ウィズ・クラス化フレームワークを用いることを提案する。
レグレッション・ウィズ・クラス化は回帰問題を分類問題に変換し、ストリーミング能動学習法を回帰問題に直接適用できるようにする。
論文 参考訳(メタデータ) (2023-09-02T20:24:24Z) - Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。
我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文 参考訳(メタデータ) (2023-07-14T07:01:48Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Retrieval-Augmented Reinforcement Learning [63.32076191982944]
過去の経験のデータセットを最適な行動にマップするために、ネットワークをトレーニングします。
検索プロセスは、現在のコンテキストで有用なデータセットから情報を取得するために訓練される。
検索強化R2D2はベースラインR2D2エージェントよりもかなり高速に学習し,より高いスコアを得ることを示す。
論文 参考訳(メタデータ) (2022-02-17T02:44:05Z) - Regression Bugs Are In Your Model! Measuring, Reducing and Analyzing
Regressions In NLP Model Updates [68.09049111171862]
この研究は、NLPモデル更新における回帰エラーの定量化、低減、分析に重点を置いている。
回帰フリーモデル更新を制約付き最適化問題に定式化する。
モデルアンサンブルが回帰を減らす方法を実証的に分析します。
論文 参考訳(メタデータ) (2021-05-07T03:33:00Z) - An Efficient Method of Training Small Models for Regression Problems
with Knowledge Distillation [1.433758865948252]
回帰問題に対する知識蒸留の新しい定式化を提案する。
まず,教師モデル予測を用いて,教師モデルを用いた学習サンプルの退学率を下げる新たな損失関数,教師の退学率の減少を提案する。
マルチタスクネットワークを考えることで、学生モデルの特徴抽出の訓練がより効果的になる。
論文 参考訳(メタデータ) (2020-02-28T08:46:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。