論文の概要: Future-conditioned Unsupervised Pretraining for Decision Transformer
- arxiv url: http://arxiv.org/abs/2305.16683v1
- Date: Fri, 26 May 2023 07:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:29:57.435742
- Title: Future-conditioned Unsupervised Pretraining for Decision Transformer
- Title(参考訳): 確定変圧器の非教師付き事前訓練
- Authors: Zhihui Xie, Zichuan Lin, Deheng Ye, Qiang Fu, Wei Yang, Shuai Li
- Abstract要約: 我々は、教師なしRL事前学習のための概念的にシンプルなアプローチとして、事前学習型決定変換器(PDT)を提案する。
PDTは、訓練中の行動を予測するために、将来の軌跡情報を特権的な文脈として活用する。
オフラインデータから多様な振る舞いを抽出し、オンラインの微調整によってハイリターン動作を制御できる。
- 参考スコア(独自算出の注目度): 19.880628629512504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research in offline reinforcement learning (RL) has demonstrated that
return-conditioned supervised learning is a powerful paradigm for
decision-making problems. While promising, return conditioning is limited to
training data labeled with rewards and therefore faces challenges in learning
from unsupervised data. In this work, we aim to utilize generalized future
conditioning to enable efficient unsupervised pretraining from reward-free and
sub-optimal offline data. We propose Pretrained Decision Transformer (PDT), a
conceptually simple approach for unsupervised RL pretraining. PDT leverages
future trajectory information as a privileged context to predict actions during
training. The ability to make decisions based on both present and future
factors enhances PDT's capability for generalization. Besides, this feature can
be easily incorporated into a return-conditioned framework for online
finetuning, by assigning return values to possible futures and sampling future
embeddings based on their respective values. Empirically, PDT outperforms or
performs on par with its supervised pretraining counterpart, especially when
dealing with sub-optimal data. Further analysis reveals that PDT can extract
diverse behaviors from offline data and controllably sample high-return
behaviors by online finetuning. Code is available at here.
- Abstract(参考訳): オフライン強化学習(RL)の最近の研究は、リターン条件付き教師付き学習が意思決定問題の強力なパラダイムであることを示した。
有望な一方で、リターンコンディショニングは報酬をラベル付けしたトレーニングデータに限定されているため、教師なしのデータから学ぶことの難しさに直面する。
本研究では,無報酬データと非最適オフラインデータからの非教師なし事前学習を効率的に行うために,汎用的な将来の条件付けを活用することを目的とする。
我々は、教師なしRL事前学習のための概念的にシンプルなアプローチである事前学習決定変換器(PDT)を提案する。
pdtは、訓練中の行動を予測するための特権付きコンテキストとして、将来の軌道情報を活用する。
現状と将来の要因に基づいて意思決定を行う能力は、pdtの一般化能力を高める。
さらに、この機能は、将来の可能性に返却値を割り当て、それぞれの値に基づいて将来の埋め込みをサンプリングすることで、オンライン微調整のための返却条件付きフレームワークに簡単に組み込むことができる。
経験的に、PDTは、特に準最適データを扱う場合、教師付き事前訓練と同等または同等に性能を発揮する。
さらに分析した結果、PDTはオフラインデータから多様な振る舞いを抽出し、オンラインの微調整によって高返り動作を制御できることがわかった。
コードはここで入手できる。
関連論文リスト
- Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Strategies for Pretraining Neural Operators [5.812284760539713]
偏微分方程式(PDE)モデリングの事前トレーニングは、一般化性と性能を改善するために、データセットをまたいだニューラルネットワークのスケーリングを約束している。
我々は,事前学習のダイナミクスを特徴付けるために,アーキテクチャ選択を最適化することなく,事前学習手法を比較した。
プレトレーニングはモデルとデータセットの選択に大きく依存するが、一般的な転送学習や物理ベースのプレトレーニング戦略が最も有効である。
論文 参考訳(メタデータ) (2024-06-12T17:56:46Z) - Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。
QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する
D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-27T12:12:39Z) - Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。
本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。
本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文 参考訳(メタデータ) (2023-09-19T11:13:01Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。