論文の概要: Future-conditioned Unsupervised Pretraining for Decision Transformer
- arxiv url: http://arxiv.org/abs/2305.16683v1
- Date: Fri, 26 May 2023 07:05:08 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-29 16:29:57.435742
- Title: Future-conditioned Unsupervised Pretraining for Decision Transformer
- Title(参考訳): 確定変圧器の非教師付き事前訓練
- Authors: Zhihui Xie, Zichuan Lin, Deheng Ye, Qiang Fu, Wei Yang, Shuai Li
- Abstract要約: 我々は、教師なしRL事前学習のための概念的にシンプルなアプローチとして、事前学習型決定変換器(PDT)を提案する。
PDTは、訓練中の行動を予測するために、将来の軌跡情報を特権的な文脈として活用する。
オフラインデータから多様な振る舞いを抽出し、オンラインの微調整によってハイリターン動作を制御できる。
- 参考スコア(独自算出の注目度): 19.880628629512504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent research in offline reinforcement learning (RL) has demonstrated that
return-conditioned supervised learning is a powerful paradigm for
decision-making problems. While promising, return conditioning is limited to
training data labeled with rewards and therefore faces challenges in learning
from unsupervised data. In this work, we aim to utilize generalized future
conditioning to enable efficient unsupervised pretraining from reward-free and
sub-optimal offline data. We propose Pretrained Decision Transformer (PDT), a
conceptually simple approach for unsupervised RL pretraining. PDT leverages
future trajectory information as a privileged context to predict actions during
training. The ability to make decisions based on both present and future
factors enhances PDT's capability for generalization. Besides, this feature can
be easily incorporated into a return-conditioned framework for online
finetuning, by assigning return values to possible futures and sampling future
embeddings based on their respective values. Empirically, PDT outperforms or
performs on par with its supervised pretraining counterpart, especially when
dealing with sub-optimal data. Further analysis reveals that PDT can extract
diverse behaviors from offline data and controllably sample high-return
behaviors by online finetuning. Code is available at here.
- Abstract(参考訳): オフライン強化学習(RL)の最近の研究は、リターン条件付き教師付き学習が意思決定問題の強力なパラダイムであることを示した。
有望な一方で、リターンコンディショニングは報酬をラベル付けしたトレーニングデータに限定されているため、教師なしのデータから学ぶことの難しさに直面する。
本研究では,無報酬データと非最適オフラインデータからの非教師なし事前学習を効率的に行うために,汎用的な将来の条件付けを活用することを目的とする。
我々は、教師なしRL事前学習のための概念的にシンプルなアプローチである事前学習決定変換器(PDT)を提案する。
pdtは、訓練中の行動を予測するための特権付きコンテキストとして、将来の軌道情報を活用する。
現状と将来の要因に基づいて意思決定を行う能力は、pdtの一般化能力を高める。
さらに、この機能は、将来の可能性に返却値を割り当て、それぞれの値に基づいて将来の埋め込みをサンプリングすることで、オンライン微調整のための返却条件付きフレームワークに簡単に組み込むことができる。
経験的に、PDTは、特に準最適データを扱う場合、教師付き事前訓練と同等または同等に性能を発揮する。
さらに分析した結果、PDTはオフラインデータから多様な振る舞いを抽出し、オンラインの微調整によって高返り動作を制御できることがわかった。
コードはここで入手できる。
関連論文リスト
- Latent Plan Transformer: Planning as Latent Variable Inference [55.42812795441545]
本稿では,Transformerベースの軌道生成器と最終帰路を接続する潜在空間を利用した新しいモデルであるLatent Plan Transformerを紹介する。
テスト期間中、潜在変数はポリシー実行前の期待した戻り値から推論され、計画のアイデアを推論として実現します。
実験により, 最適軌道は, 微妙なクレジット代入, 軌道縫合, 環境問題への適応から, 改善された意思決定を発見できることを示した。
論文 参考訳(メタデータ) (2024-02-07T08:18:09Z) - Transformers as Decision Makers: Provable In-Context Reinforcement
Learning via Supervised Pretraining [28.849426869288255]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。
ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文 参考訳(メタデータ) (2023-10-12T17:55:02Z) - Fast Machine Unlearning Without Retraining Through Selective Synaptic
Dampening [51.34904967046097]
Selective Synaptic Dampening (SSD)は高速で、訓練データの長期保存を必要としない。
高速で性能が高く,トレーニングデータの長期保存を必要としない,新しい2段階のポストホック,リトレーニングフリーなマシンアンラーニング手法を提案する。
論文 参考訳(メタデータ) (2023-08-15T11:30:45Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Dichotomy of Control: Separating What You Can Control from What You
Cannot [129.62135987416164]
政策の制御(行動)と政策の制御(環境)以外のメカニズムを分離する将来の条件付き教師あり学習フレームワークを提案する。
我々は,DoCが条件付入力と整合したポリシを出力し,学習したポリシを所望のハイリターン未来結果に条件付けすることで,高リターン行動が正しく引き起こされることを示す。
論文 参考訳(メタデータ) (2022-10-24T17:49:56Z) - Q-learning Decision Transformer: Leveraging Dynamic Programming for
Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。
DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。
DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文 参考訳(メタデータ) (2022-09-08T18:26:39Z) - Knowledge Distillation as Efficient Pre-training: Faster Convergence,
Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。
提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文 参考訳(メタデータ) (2022-03-10T06:23:41Z) - Offline-to-Online Reinforcement Learning via Balanced Replay and
Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。
状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。
本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文 参考訳(メタデータ) (2021-07-01T16:26:54Z) - Robust Disentanglement of a Few Factors at a Time [5.156484100374058]
変分オートエンコーダ(VAE)の整合性向上のための人口ベーストレーニング(PBT)を導入する。
PBT-VAEトレーニングでは、教師なしのモデルスコアとしてUnsupervised Disentanglement Ranking (UDR)を使用し、この方法でトレーニングされたモデルが、生成因子のサブセットのみを一貫して切り離す傾向を示す。
複数のデータセットとメトリクスをまたいで、最先端の教師なしのアンハンジメント性能とロバストネスを著しく改善したことを示す。
論文 参考訳(メタデータ) (2020-10-26T12:34:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。