論文の概要: SAD: State-Action Distillation for In-Context Reinforcement Learning under Random Policies
- arxiv url: http://arxiv.org/abs/2410.19982v1
- Date: Fri, 25 Oct 2024 21:46:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-29 12:16:45.576567
- Title: SAD: State-Action Distillation for In-Context Reinforcement Learning under Random Policies
- Title(参考訳): SAD:無作為政策下でのインテクスト強化学習のためのステートアクション蒸留
- Authors: Weiqin Chen, Santiago Paternain,
- Abstract要約: State-Action Distillation (SAD) は、ランダムなポリシーのみによってガイドされる顕著な事前学習データセットを生成する。
SADはオフライン評価では180.86%、オンライン評価では172.8%で最高のベースラインを上回っている。
- 参考スコア(独自算出の注目度): 2.52299400625445
- License:
- Abstract: Pretrained foundation models have exhibited extraordinary in-context learning performance, allowing zero-shot generalization to new tasks not encountered during the pretraining. In the case of RL, in-context RL (ICRL) emerges when pretraining FMs on decision-making problems in an autoregressive-supervised manner. Nevertheless, current state-of-the-art ICRL algorithms, such as AD, DPT and DIT, impose stringent requirements on generating the pretraining dataset concerning the behavior (source) policies, context information, and action labels, etc. Notably, these algorithms either demand optimal policies or require varying degrees of well-trained behavior policies for all environments during the generation of the pretraining dataset. This significantly hinders the application of ICRL to real-world scenarios, where acquiring optimal or well-trained policies for a substantial volume of real-world training environments can be both prohibitively intractable and expensive. To overcome this challenge, we introduce a novel approach, termed State-Action Distillation (SAD), that allows to generate a remarkable pretraining dataset guided solely by random policies. In particular, SAD selects query states and corresponding action labels by distilling the outstanding state-action pairs from the entire state and action spaces by using random policies within a trust horizon, and then inherits the classical autoregressive-supervised mechanism during the pretraining. To the best of our knowledge, this is the first work that enables promising ICRL under (e.g., uniform) random policies and random contexts. We establish theoretical analyses regarding the performance guarantees of SAD. Moreover, our empirical results across multiple ICRL benchmark environments demonstrate that, on average, SAD outperforms the best baseline by 180.86% in the offline evaluation and by 172.8% in the online evaluation.
- Abstract(参考訳): 事前訓練された基礎モデルは、異常なコンテキスト内学習性能を示し、事前訓練中に遭遇しない新しいタスクにゼロショットの一般化を可能にする。
RLの場合、自己回帰制御された方法で意思決定問題に関するFMを事前訓練する際、ICRL(In-context RL)が発生する。
それにもかかわらず、AD、DPT、DITといった現在の最先端のICRLアルゴリズムは、行動(ソース)ポリシー、コンテキスト情報、アクションラベルなどに関する事前トレーニングデータセットを生成するための厳格な要件を課している。
特に、これらのアルゴリズムは最適なポリシーを要求するか、事前学習データセットの生成中に、すべての環境に対して様々な訓練された行動ポリシーを必要とする。
これによりICRLの現実世界のシナリオへの適用が著しく妨げられ、現実世界のトレーニング環境のかなりの量に対して最適な、あるいは十分に訓練されたポリシーを取得することは、難易度とコストの両方を禁じることができる。
この課題を克服するために、我々は、ランダムポリシーのみによってガイドされる顕著な事前学習データセットを生成するための、SAD(State-Action Distillation)と呼ばれる新しいアプローチを導入する。
特に、SADは、信頼地平線内でランダムなポリシーを用いて、状態と行動空間全体から卓越した状態-動作ペアを蒸留し、クエリ状態と対応する動作ラベルを選択し、事前訓練中に古典的な自己回帰制御機構を継承する。
我々の知る限りでは、これは(例えば、均一な)ランダムポリシーとランダムコンテキストの下で、有望なICRLを可能にする最初の作業である。
SADの性能保証に関する理論的分析を確立する。
さらに、複数のIRCLベンチマーク環境における実験結果から、SADはオフライン評価では180.86%、オンライン評価では172.8%で最高のベースラインを上回ります。
関連論文リスト
- Constrained Reinforcement Learning Under Model Mismatch [18.05296241839688]
制約強化学習(RL)に関する既存の研究は、訓練環境における優れた政策を得ることができる。
しかし、実際の環境にデプロイすると、トレーニングと実際の環境の間にモデルミスマッチがあるため、トレーニング中に当初満足していた制約に容易に違反する可能性がある。
我々は,大規模かつ連続的な状態空間に適用可能な最初のアルゴリズムであるロバスト制約付きポリシー最適化(RCPO)アルゴリズムを開発し,トレーニング中の各イテレーションにおいて最悪の報酬改善と制約違反を理論的に保証する。
論文 参考訳(メタデータ) (2024-05-02T14:31:52Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - Model-based Safe Deep Reinforcement Learning via a Constrained Proximal
Policy Optimization Algorithm [4.128216503196621]
オンライン方式で環境の遷移動態を学習する,オンライン型モデルに基づくセーフディープRLアルゴリズムを提案する。
我々は,本アルゴリズムがより標本効率が高く,制約付きモデルフリーアプローチと比較して累積的ハザード違反が低いことを示す。
論文 参考訳(メタデータ) (2022-10-14T06:53:02Z) - A State-Distribution Matching Approach to Non-Episodic Reinforcement
Learning [61.406020873047794]
現実世界の応用への大きなハードルは、エピソード的な環境でのアルゴリズムの開発である。
提案手法は,提案する実証実験における状態分布に一致するように後方方針を訓練する手法である。
実験の結果,MEDALは3つのスパース・リワード連続制御タスクにおいて先行手法と一致し,性能が向上することがわかった。
論文 参考訳(メタデータ) (2022-05-11T00:06:29Z) - Robustness and risk management via distributional dynamic programming [13.173307471333619]
我々は,政策評価のための実用的なDPアルゴリズムとともに,分散演算子の新しいクラスを導入する。
我々の手法は、各状態が最悪の部分状態と最良の部分状態に分割される拡張状態空間を通して再構成される。
我々は、分散演算子とDPアルゴリズムを導出し、新しい制御課題を解決する。
論文 参考訳(メタデータ) (2021-12-28T12:12:57Z) - Curriculum Offline Imitation Learning [72.1015201041391]
オフラインの強化学習タスクでは、エージェントは、環境とのさらなるインタラクションなしに、事前にコンパイルされたデータセットから学ぶ必要がある。
我々は,適応的な近隣政策を模倣する経験的選択戦略を,より高いリターンで活用するテキストカリキュラムオフライン学習(COIL)を提案する。
連続制御ベンチマークでは、COILを模倣ベースとRLベースの両方の手法と比較し、混合データセット上で平凡な振る舞いを学ぶことを避けるだけでなく、最先端のオフラインRL手法と競合することを示します。
論文 参考訳(メタデータ) (2021-11-03T08:02:48Z) - Offline Reinforcement Learning with Implicit Q-Learning [85.62618088890787]
現行のオフライン強化学習手法では、トレーニング中に見つからない行動の価値を問い合わせて、ポリシーを改善する必要がある。
本稿では,データセット外の動作を評価する必要のないオフラインRL手法を提案する。
この方法により、学習したポリシーは、一般化によってデータの最良の振る舞いを大幅に改善することができる。
論文 参考訳(メタデータ) (2021-10-12T17:05:05Z) - Uncertainty Weighted Actor-Critic for Offline Reinforcement Learning [63.53407136812255]
オフライン強化学習は、探索を必要とせずに、事前に収集された静的データセットから効果的なポリシーを学ぶことを約束する。
既存のQラーニングとアクター批判に基づくオフポリティクスRLアルゴリズムは、アウト・オブ・ディストリビューション(OOD)アクションや状態からのブートストラップ時に失敗する。
我々は,OOD状態-動作ペアを検出し,トレーニング目標への貢献度を下げるアルゴリズムであるUncertainty Weighted Actor-Critic (UWAC)を提案する。
論文 参考訳(メタデータ) (2021-05-17T20:16:46Z) - MUSBO: Model-based Uncertainty Regularized and Sample Efficient Batch
Optimization for Deployment Constrained Reinforcement Learning [108.79676336281211]
データ収集とオンライン学習のための新しいポリシーの継続的展開はコスト非効率か非現実的かのどちらかである。
モデルベース不確実性正規化とサンプル効率的なバッチ最適化という新しいアルゴリズム学習フレームワークを提案する。
本フレームワークは,各デプロイメントの新規で高品質なサンプルを発見し,効率的なデータ収集を実現する。
論文 参考訳(メタデータ) (2021-02-23T01:30:55Z) - Expert-Supervised Reinforcement Learning for Offline Policy Learning and
Evaluation [21.703965401500913]
本稿では,オフライン政策学習のための不確実性定量化手法であるExpert-Supervised RL (ESRL) フレームワークを提案する。
具体的には,1)仮説テストによる安全かつ最適なポリシの学習,2)ESRLはアプリケーションコンテキストに合わせて異なるレベルのリスク逆実装を可能にし,3)後続分布を通してESRLのポリシーを解釈する方法を提案する。
論文 参考訳(メタデータ) (2020-06-23T17:43:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。