論文の概要: PASTA: Pretrained Action-State Transformer Agents
- arxiv url: http://arxiv.org/abs/2307.10936v2
- Date: Mon, 4 Dec 2023 10:15:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-05 22:42:46.095068
- Title: PASTA: Pretrained Action-State Transformer Agents
- Title(参考訳): pasta: 事前訓練されたアクションステートトランスフォーマーエージェント
- Authors: Raphael Boige and Yannis Flet-Berliac and Arthur Flajolet and
Guillaume Richard and Thomas Pierrot
- Abstract要約: 自己教師型学習は、様々なコンピューティング領域において革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータに基づいて、トランスフォーマーモデルを事前訓練する。
強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。
- 参考スコア(独自算出の注目度): 10.654719072766495
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has brought about a revolutionary paradigm shift in
various computing domains, including NLP, vision, and biology. Recent
approaches involve pre-training transformer models on vast amounts of unlabeled
data, serving as a starting point for efficiently solving downstream tasks. In
reinforcement learning, researchers have recently adapted these approaches,
developing models pre-trained on expert trajectories. This advancement enables
the models to tackle a broad spectrum of tasks, ranging from robotics to
recommendation systems. However, existing methods mostly rely on intricate
pre-training objectives tailored to specific downstream applications. This
paper conducts a comprehensive investigation of models, referred to as
pre-trained action-state transformer agents (PASTA). Our study covers a unified
methodology and covers an extensive set of general downstream tasks including
behavioral cloning, offline RL, sensor failure robustness, and dynamics change
adaptation. Our objective is to systematically compare various design choices
and offer valuable insights that will aid practitioners in developing robust
models. Key highlights of our study include tokenization at the component level
for actions and states, the use of fundamental pre-training objectives such as
next token prediction or masked language modeling, simultaneous training of
models across multiple domains, and the application of various fine-tuning
strategies. In this study, the developed models contain fewer than 7 million
parameters allowing a broad community to use these models and reproduce our
experiments. We hope that this study will encourage further research into the
use of transformers with first principle design choices to represent RL
trajectories and contribute to robust policy learning.
- Abstract(参考訳): 自己教師型学習は、NLP、ビジョン、生物学など、さまざまなコンピューティング領域に革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータでトランスフォーマーモデルを事前トレーニングし、下流タスクを効率的に解決するための出発点となる。
強化学習において、研究者は最近これらのアプローチに適応し、専門家の軌道で事前訓練されたモデルを開発した。
この進歩により、モデルはロボティクスからレコメンデーションシステムまで、幅広いタスクに取り組むことができる。
しかし、既存の手法は主に特定の下流アプリケーションに適した複雑な事前学習の目的に依存している。
本稿では,PASTA(pre-trained action-state transformer agent)と呼ばれるモデルについて包括的に検討する。
本研究は, 統合された手法を網羅し, 行動クローン, オフラインRL, センサ故障の堅牢性, 動的変化適応など, 幅広いダウンストリームタスクを網羅する。
私たちの目標は、さまざまな設計選択を体系的に比較し、堅牢なモデルを開発する実践者を支援する貴重な洞察を提供することです。
本研究の主なハイライトは,動作や状態のコンポーネントレベルでのトークン化,次のトークン予測やマスク言語モデリングといった基本的な事前学習目標の使用,複数のドメインにわたるモデルの同時トレーニング,さまざまな微調整戦略の適用などです。
本研究では,これらのモデルを用いて実験を再現できるように,700万以上のパラメータを含むモデルを開発した。
本研究は,RL軌道を表現し,堅牢な政策学習に寄与する第一原理設計選択によるトランスフォーマーの利用に関するさらなる研究を期待する。
関連論文リスト
- PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [71.63186089279218]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Reinforcement Learning for Topic Models [3.42658286826597]
本稿では,ProdLDAにおける変分オートエンコーダを連続行動空間強化学習ポリシーに置き換えることにより,トピックモデリングに強化学習手法を適用した。
ニューラルネットワークアーキテクチャの近代化、ELBO損失の重み付け、コンテキスト埋め込みの使用、トピックの多様性と一貫性の計算による学習プロセスの監視など、いくつかの変更を導入している。
論文 参考訳(メタデータ) (2023-05-08T16:41:08Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - GEM: Group Enhanced Model for Learning Dynamical Control Systems [78.56159072162103]
サンプルベースの学習が可能な効果的なダイナミクスモデルを構築します。
リー代数ベクトル空間上のダイナミクスの学習は、直接状態遷移モデルを学ぶよりも効果的であることを示す。
この研究は、ダイナミクスの学習とリー群の性質の関連性を明らかにし、新たな研究の方向への扉を開く。
論文 参考訳(メタデータ) (2021-04-07T01:08:18Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。