論文の概要: PASTA: Pretrained Action-State Transformer Agents
- arxiv url: http://arxiv.org/abs/2307.10936v1
- Date: Thu, 20 Jul 2023 15:09:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-21 12:31:22.799444
- Title: PASTA: Pretrained Action-State Transformer Agents
- Title(参考訳): pasta: 事前訓練されたアクションステートトランスフォーマーエージェント
- Authors: Raphael Boige and Yannis Flet-Berliac and Arthur Flajolet and
Guillaume Richard and Thomas Pierrot
- Abstract要約: 本稿では,PASTA(Pretrained Action-State Transformer Agents)と呼ぶモデルについて包括的に検討する。
本研究は統合された手法を用いて,行動クローン,オフラインRL,センサ故障の堅牢性,動的変化適応など,幅広いダウンストリームタスクを網羅する。
我々の研究の主なハイライトは、アクションおよび状態コンポーネントレベルでのトークン化、次のトークン予測のような基本的な事前学習目標、さまざまなドメインを同時にトレーニングするモデル、パラメータ効率の良い微調整(PEFT)などである。
- 参考スコア(独自算出の注目度): 5.326166398749118
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised learning has brought about a revolutionary paradigm shift in
various computing domains, including NLP, vision, and biology. Recent
approaches involve pre-training transformer models on vast amounts of unlabeled
data, serving as a starting point for efficiently solving downstream tasks. In
the realm of reinforcement learning, researchers have recently adapted these
approaches by developing models pre-trained on expert trajectories, enabling
them to address a wide range of tasks, from robotics to recommendation systems.
However, existing methods mostly rely on intricate pre-training objectives
tailored to specific downstream applications. This paper presents a
comprehensive investigation of models we refer to as Pretrained Action-State
Transformer Agents (PASTA). Our study uses a unified methodology and covers an
extensive set of general downstream tasks including behavioral cloning, offline
RL, sensor failure robustness, and dynamics change adaptation. Our goal is to
systematically compare various design choices and provide valuable insights to
practitioners for building robust models. Key highlights of our study include
tokenization at the action and state component level, using fundamental
pre-training objectives like next token prediction, training models across
diverse domains simultaneously, and using parameter efficient fine-tuning
(PEFT). The developed models in our study contain fewer than 10 million
parameters and the application of PEFT enables fine-tuning of fewer than 10,000
parameters during downstream adaptation, allowing a broad community to use
these models and reproduce our experiments. We hope that this study will
encourage further research into the use of transformers with first-principles
design choices to represent RL trajectories and contribute to robust policy
learning.
- Abstract(参考訳): 自己教師型学習は、NLP、ビジョン、生物学など、さまざまなコンピューティング領域に革命的なパラダイムシフトをもたらした。
最近のアプローチでは、大量のラベルのないデータでトランスフォーマーモデルを事前トレーニングし、下流タスクを効率的に解決するための出発点となる。
強化学習の分野では、研究者たちは最近、専門家の軌道上で事前訓練されたモデルを開発し、ロボット工学からレコメンデーションシステムまで幅広いタスクに対処できるように、これらのアプローチを適用した。
しかし、既存の手法は主に特定の下流アプリケーションに適した複雑な事前学習の目的に依存している。
本稿では,前訓練動作状態トランスフォーマーエージェント (pasta) と呼ばれるモデルの包括的検討を行う。
本研究は統一的な手法を用い,行動のクローン化,オフラインrl,センサ障害のロバスト性,ダイナミクス変化適応など,幅広い下流タスクをカバーする。
私たちの目標は、さまざまな設計選択を体系的に比較し、堅牢なモデルを構築する実践者に貴重な洞察を提供することです。
本研究では,アクションと状態コンポーネントレベルでのトークン化,次のトークン予測のような基本的な事前トレーニング目標の利用,多様なドメインをまたいだトレーニングモデル,パラメータ効率の優れた微調整(peft)などについて検討した。
また,peftの適用により,下流適応時のパラメータ1万未満の微調整が可能となり,幅広いコミュニティがこれらのモデルを用いて実験を再現することが可能となった。
本研究は,RL軌道を表現し,ロバストな政策学習に寄与するために,第一原理設計選択による変圧器の使用に関するさらなる研究を期待する。
関連論文リスト
- Behavior Backdoor for Deep Learning Models [95.50787731231063]
我々は,行動訓練されたバックドアモデルトレーニング手順として定義された行動バックドアアタックに向けた第一歩を踏み出す。
本稿では,行動バックドアを実装する最初のパイプライン,すなわち量子バックドア(QB)攻撃を提案する。
さまざまなモデル、データセット、タスクで実験が行われ、この新たなバックドア攻撃の有効性が実証された。
論文 参考訳(メタデータ) (2024-12-02T10:54:02Z) - PILOT: A Pre-Trained Model-Based Continual Learning Toolbox [65.57123249246358]
本稿では,PILOTとして知られるモデルベース連続学習ツールボックスについて紹介する。
一方、PILOTはL2P、DualPrompt、CODA-Promptといった事前学習モデルに基づいて、最先端のクラスインクリメンタル学習アルゴリズムを実装している。
一方、PILOTは、事前学習されたモデルの文脈に典型的なクラス増分学習アルゴリズムを適合させ、それらの効果を評価する。
論文 参考訳(メタデータ) (2023-09-13T17:55:11Z) - Emergent Agentic Transformer from Chain of Hindsight Experience [96.56164427726203]
簡単なトランスフォーマーベースモデルが時間差と模倣学習に基づくアプローチの両方と競合することを示す。
単純なトランスフォーマーベースのモデルが時間差と模倣学習ベースのアプローチの両方で競合するのはこれが初めてである。
論文 参考訳(メタデータ) (2023-05-26T00:43:02Z) - Reinforcement Learning for Topic Models [3.42658286826597]
本稿では,ProdLDAにおける変分オートエンコーダを連続行動空間強化学習ポリシーに置き換えることにより,トピックモデリングに強化学習手法を適用した。
ニューラルネットワークアーキテクチャの近代化、ELBO損失の重み付け、コンテキスト埋め込みの使用、トピックの多様性と一貫性の計算による学習プロセスの監視など、いくつかの変更を導入している。
論文 参考訳(メタデータ) (2023-05-08T16:41:08Z) - Predictive Experience Replay for Continual Visual Control and
Forecasting [62.06183102362871]
視覚力学モデリングのための新しい連続学習手法を提案し,その視覚制御と予測における有効性について検討する。
まず,タスク固有のダイナミクスをガウスの混合で学習する混合世界モデルを提案し,その上で,破滅的な忘れを克服するための新たなトレーニング戦略を提案する。
我々のモデルは,DeepMind Control と Meta-World のベンチマークにおいて,既存の連続的学習アルゴリズムと視覚的RLアルゴリズムの単純な組み合わせよりも優れている。
論文 参考訳(メタデータ) (2023-03-12T05:08:03Z) - Training and Evaluation of Deep Policies using Reinforcement Learning
and Generative Models [67.78935378952146]
GenRLはシーケンシャルな意思決定問題を解決するためのフレームワークである。
強化学習と潜在変数生成モデルの組み合わせを利用する。
最終方針訓練の性能に最も影響を与える生成モデルの特徴を実験的に決定する。
論文 参考訳(メタデータ) (2022-04-18T22:02:32Z) - Sample Efficient Reinforcement Learning via Model-Ensemble Exploration
and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。
我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文 参考訳(メタデータ) (2021-07-05T07:18:20Z) - Trajectory-wise Multiple Choice Learning for Dynamics Generalization in
Reinforcement Learning [137.39196753245105]
本稿では,動的一般化のためのマルチヘッドダイナミックスモデルを学習するモデルベース強化学習アルゴリズムを提案する。
文脈学習は,過去の経験から得られる動的情報からコンテキスト潜在ベクトルにエンコードする。
提案手法は,最先端のRL法と比較して,様々な制御タスクにおいて優れたゼロショット一般化性能を示す。
論文 参考訳(メタデータ) (2020-10-26T03:20:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。