Fugu-MT 論文翻訳(概要): Future-conditioned Unsupervised Pretraining for Decision Transformer

論文の概要: Future-conditioned Unsupervised Pretraining for Decision Transformer

arxiv url: http://arxiv.org/abs/2305.16683v1
Date: Fri, 26 May 2023 07:05:08 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-29 16:29:57.435742
Title: Future-conditioned Unsupervised Pretraining for Decision Transformer
Title（参考訳）: 確定変圧器の非教師付き事前訓練
Authors: Zhihui Xie, Zichuan Lin, Deheng Ye, Qiang Fu, Wei Yang, Shuai Li
Abstract要約: 我々は、教師なしRL事前学習のための概念的にシンプルなアプローチとして、事前学習型決定変換器(PDT)を提案する。 PDTは、訓練中の行動を予測するために、将来の軌跡情報を特権的な文脈として活用する。オフラインデータから多様な振る舞いを抽出し、オンラインの微調整によってハイリターン動作を制御できる。
参考スコア（独自算出の注目度）: 19.880628629512504
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent research in offline reinforcement learning (RL) has demonstrated that return-conditioned supervised learning is a powerful paradigm for decision-making problems. While promising, return conditioning is limited to training data labeled with rewards and therefore faces challenges in learning from unsupervised data. In this work, we aim to utilize generalized future conditioning to enable efficient unsupervised pretraining from reward-free and sub-optimal offline data. We propose Pretrained Decision Transformer (PDT), a conceptually simple approach for unsupervised RL pretraining. PDT leverages future trajectory information as a privileged context to predict actions during training. The ability to make decisions based on both present and future factors enhances PDT's capability for generalization. Besides, this feature can be easily incorporated into a return-conditioned framework for online finetuning, by assigning return values to possible futures and sampling future embeddings based on their respective values. Empirically, PDT outperforms or performs on par with its supervised pretraining counterpart, especially when dealing with sub-optimal data. Further analysis reveals that PDT can extract diverse behaviors from offline data and controllably sample high-return behaviors by online finetuning. Code is available at here.
Abstract（参考訳）: オフライン強化学習(RL)の最近の研究は、リターン条件付き教師付き学習が意思決定問題の強力なパラダイムであることを示した。有望な一方で、リターンコンディショニングは報酬をラベル付けしたトレーニングデータに限定されているため、教師なしのデータから学ぶことの難しさに直面する。本研究では,無報酬データと非最適オフラインデータからの非教師なし事前学習を効率的に行うために,汎用的な将来の条件付けを活用することを目的とする。我々は、教師なしRL事前学習のための概念的にシンプルなアプローチである事前学習決定変換器(PDT)を提案する。 pdtは、訓練中の行動を予測するための特権付きコンテキストとして、将来の軌道情報を活用する。現状と将来の要因に基づいて意思決定を行う能力は、pdtの一般化能力を高める。さらに、この機能は、将来の可能性に返却値を割り当て、それぞれの値に基づいて将来の埋め込みをサンプリングすることで、オンライン微調整のための返却条件付きフレームワークに簡単に組み込むことができる。経験的に、PDTは、特に準最適データを扱う場合、教師付き事前訓練と同等または同等に性能を発揮する。さらに分析した結果、PDTはオフラインデータから多様な振る舞いを抽出し、オンラインの微調整によって高返り動作を制御できることがわかった。コードはここで入手できる。

関連論文リスト

In-Dataset Trajectory Return Regularization for Offline Preference-based Reinforcement Learning [15.369324784520538]
In-Dataset Trajectory Return Regularization (DTR) を提案する。 DTRは報酬バイアスの下で不正確な軌道縫合を学習するリスクを軽減する。また,複数の報酬モデルを効果的に統合するアンサンブル正規化手法を導入する。
論文参考訳（メタデータ） (2024-12-12T09:35:47Z)
Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文参考訳（メタデータ） (2024-10-23T17:58:45Z)
Strategies for Pretraining Neural Operators [5.812284760539713]
偏微分方程式(PDE)モデリングの事前トレーニングは、一般化性と性能を改善するために、データセットをまたいだニューラルネットワークのスケーリングを約束している。我々は,事前学習のダイナミクスを特徴付けるために,アーキテクチャ選択を最適化することなく,事前学習手法を比較した。プレトレーニングはモデルとデータセットの選択に大きく依存するが、一般的な転送学習や物理ベースのプレトレーニング戦略が最も有効である。
論文参考訳（メタデータ） (2024-06-12T17:56:46Z)
Q-value Regularized Transformer for Offline Reinforcement Learning [70.13643741130899]
オフライン強化学習(RL)における最先端化のためのQ値正規化変換器(QT)を提案する。 QTはアクション値関数を学習し、条件付きシーケンスモデリング(CSM)のトレーニング損失にアクション値を最大化する用語を統合する D4RLベンチマークデータセットの実証評価は、従来のDP法やCSM法よりもQTの方が優れていることを示す。
論文参考訳（メタデータ） (2024-05-27T12:12:39Z)
Offline Reinforcement Learning from Datasets with Structured Non-Stationarity [50.35634234137108]
現在の強化学習(RL)は、成功するポリシーを学ぶのに必要な大量のデータによって制限されることが多い。本稿では,データセットを収集しながら,各エピソードの遷移と報酬関数が徐々に変化するが,各エピソード内で一定に保たれるような新しいオフラインRL問題に対処する。本稿では、オフラインデータセットにおけるこの非定常性を識別し、ポリシーのトレーニング時にそれを説明し、評価中に予測するContrastive Predictive Codingに基づく手法を提案する。
論文参考訳（メタデータ） (2024-05-23T02:41:36Z)
Transformers as Decision Makers: Provable In-Context Reinforcement Learning via Supervised Pretraining [25.669038513039357]
本稿では,テキスト内強化学習のための教師付き事前学習を理論的に分析する枠組みを提案する。 ReLUに着目した変換器は、最適に近いオンライン強化学習アルゴリズムを効率的に近似できることを示す。
論文参考訳（メタデータ） (2023-10-12T17:55:02Z)
SPOT: Scalable 3D Pre-training via Occupancy Prediction for Learning Transferable 3D Representations [76.45009891152178]
トレーニング-ファインタニングアプローチは、さまざまな下流データセットとタスクをまたいだトレーニング済みのバックボーンを微調整することで、ラベル付けの負担を軽減することができる。本稿では, 一般表現学習が, 占領予測のタスクを通じて達成できることを, 初めて示す。本研究は,LiDAR 点の理解を促進するとともに,LiDAR の事前訓練における今後の進歩の道を開くことを目的とする。
論文参考訳（メタデータ） (2023-09-19T11:13:01Z)
Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文参考訳（メタデータ） (2023-06-26T17:58:50Z)
Q-learning Decision Transformer: Leveraging Dynamic Programming for Conditional Sequence Modelling in Offline RL [0.0]
決定変換器(DT)は条件付きポリシーアプローチと変圧器アーキテクチャを組み合わせたものである。 DTには縫合能力がない -- オフラインのRLが最適なポリシを学ぶ上で重要な能力の1つだ。 DTの欠点に対処するQ-learning Decision Transformer (QDT)を提案する。
論文参考訳（メタデータ） (2022-09-08T18:26:39Z)
Knowledge Distillation as Efficient Pre-training: Faster Convergence, Higher Data-efficiency, and Better Transferability [53.27240222619834]
効率的な事前学習としての知識蒸留は、学習した特徴表現を学習済みモデルから将来の下流タスクのための新しい学生モデルに効率的に転送することを目的としている。提案手法は,3つの下流タスクにおける教師付き事前学習タスクと,10倍少ないデータと5倍少ない事前学習時間を必要とする9つの下流データセットとを比較検討する。
論文参考訳（メタデータ） (2022-03-10T06:23:41Z)
Offline-to-Online Reinforcement Learning via Balanced Replay and Pessimistic Q-Ensemble [135.6115462399788]
深いオフライン強化学習により、オフラインデータセットから強力なロボットエージェントをトレーニングすることが可能になった。状態-作用分布シフトは、微調整中に厳しいブートストラップエラーを引き起こす可能性がある。本稿では,オンライン上で遭遇したサンプルを優先しながら,ほぼ政治的なサンプルの使用を奨励するバランスの取れたリプレイ方式を提案する。
論文参考訳（メタデータ） (2021-07-01T16:26:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。