論文の概要: SMART: Self-supervised Multi-task pretrAining with contRol Transformers
- arxiv url: http://arxiv.org/abs/2301.09816v1
- Date: Tue, 24 Jan 2023 05:01:23 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 14:30:44.986351
- Title: SMART: Self-supervised Multi-task pretrAining with contRol Transformers
- Title(参考訳): SMART:contRol変換器を用いた自己教師型マルチタスクプリトランザ
- Authors: Yanchao Sun, Shuang Ma, Ratnesh Madaan, Rogerio Bonatti, Furong Huang,
Ashish Kapoor
- Abstract要約: 自己指導型事前訓練は言語と視覚領域で広く研究されている。
シーケンシャルな意思決定タスクのための事前学習アプローチを適切に設計することは困難である。
逐次意思決定のための一般的な事前学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 34.604339091596884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Self-supervised pretraining has been extensively studied in language and
vision domains, where a unified model can be easily adapted to various
downstream tasks by pretraining representations without explicit labels. When
it comes to sequential decision-making tasks, however, it is difficult to
properly design such a pretraining approach that can cope with both
high-dimensional perceptual information and the complexity of sequential
control over long interaction horizons. The challenge becomes combinatorially
more complex if we want to pretrain representations amenable to a large variety
of tasks. To tackle this problem, in this work, we formulate a general
pretraining-finetuning pipeline for sequential decision making, under which we
propose a generic pretraining framework \textit{Self-supervised Multi-task
pretrAining with contRol Transformer (SMART)}. By systematically investigating
pretraining regimes, we carefully design a Control Transformer (CT) coupled
with a novel control-centric pretraining objective in a self-supervised manner.
SMART encourages the representation to capture the common essential information
relevant to short-term control and long-term control, which is transferrable
across tasks. We show by extensive experiments in DeepMind Control Suite that
SMART significantly improves the learning efficiency among seen and unseen
downstream tasks and domains under different learning scenarios including
Imitation Learning (IL) and Reinforcement Learning (RL). Benefiting from the
proposed control-centric objective, SMART is resilient to distribution shift
between pretraining and finetuning, and even works well with low-quality
pretraining datasets that are randomly collected.
- Abstract(参考訳): 自己教師付き事前学習は、明示的なラベルなしで表現を事前学習することで、統一モデルが様々な下流タスクに容易に適応できる言語および視覚領域で広く研究されている。
しかし、逐次的な意思決定タスクに関しては、高次元の知覚情報と長い相互作用の地平線上の逐次制御の複雑さの両方に対処できる事前学習アプローチを適切に設計することは困難である。
様々なタスクに対応可能な表現を事前訓練したい場合、この課題は組合せ的に複雑になる。
そこで本研究では,逐次的意思決定のための一般的な事前学習パイプラインを定式化し,制御トランスフォーマ (smart)} を用いた汎用事前学習フレームワーク \textit{self-supervised multi-task pretraining を提案する。
事前学習体制を体系的に検討することにより、制御変換器(CT)と制御中心の新たな事前学習目標を自己管理的に設計する。
smartは、タスク間で転送可能な短期的制御と長期的制御に関連する共通の必須情報を取得するよう表現を奨励する。
我々は、Imitation Learning (IL) やReinforcement Learning (RL) といった異なる学習シナリオ下で、SMARTは、見知らぬ下流のタスクやドメイン間の学習効率を著しく向上することを示す。
SMARTは、提案された制御中心の目標に適合し、事前学習と微調整の間の分散シフトに耐性があり、ランダムに収集される低品質の事前学習データセットでもうまく機能する。
関連論文リスト
- Efficient Remote Sensing with Harmonized Transfer Learning and Modality Alignment [0.0]
ハーモナイズドトランスファーラーニングとモダリティアライメント(HarMA)は,タスク制約,モダリティアライメント,単一モダリティアライメントを同時に満足する手法である。
HarMAはリモートセンシング分野における2つの一般的なマルチモーダル検索タスクにおいて最先端の性能を達成する。
論文 参考訳(メタデータ) (2024-04-28T17:20:08Z) - Decision Transformer as a Foundation Model for Partially Observable Continuous Control [5.453548045211778]
決定変換器(DT)アーキテクチャは、過去の観測、行動、報酬に基づいて最適な行動を予測するために使用される。
DTは、全く新しいタスクに対して驚くべきゼロショットの一般化能力を示す。
これらの知見は、一般的な制御アプリケーションの基本制御系としてのDTの可能性を示している。
論文 参考訳(メタデータ) (2024-04-03T02:17:34Z) - Self-regulating Prompts: Foundational Model Adaptation without
Forgetting [112.66832145320434]
本稿では,PromptSRCと呼ばれる自己正規化フレームワークを提案する。
PromptSRCはタスク固有の汎用表現とタスクに依存しない汎用表現の両方に最適化するプロンプトを導く。
論文 参考訳(メタデータ) (2023-07-13T17:59:35Z) - Supervised Pretraining Can Learn In-Context Reinforcement Learning [96.62869749926415]
本稿では,意思決定問題における変換器の文脈内学習能力について検討する。
本稿では,変換器が最適動作を予測する教師付き事前学習法であるDPT(Decision-Pretrained Transformer)を導入,研究する。
事前学習した変換器は、オンラインと保守主義の両方をオフラインで探索することで、コンテキスト内における様々なRL問題の解決に利用できる。
論文 参考訳(メタデータ) (2023-06-26T17:58:50Z) - Self-Supervised Reinforcement Learning that Transfers using Random
Features [41.00256493388967]
本研究では,タスク間の行動の伝達を,報酬の異なる自己指導型強化学習手法を提案する。
我々の手法は、報奨ラベルなしでオフラインデータセットでトレーニングできるが、新しいタスクに素早くデプロイできるという自己教師型である。
論文 参考訳(メタデータ) (2023-05-26T20:37:06Z) - Self-Supervised Representation Learning from Temporal Ordering of
Automated Driving Sequences [49.91741677556553]
本研究では、認識タスクのための地域レベルの特徴表現を事前学習するための時間順述前文タスクであるTempOを提案する。
我々は各フレームを、オブジェクト検出やトラッキングシステムにとって自然な表現である、未順序な特徴ベクトルのセットで埋め込む。
BDD100K、nu Images、MOT17データセットの大規模な評価は、私たちのTempO事前学習アプローチがシングルフレームの自己教師型学習方法よりも優れていることを示している。
論文 参考訳(メタデータ) (2023-02-17T18:18:27Z) - Effective Adaptation in Multi-Task Co-Training for Unified Autonomous
Driving [103.745551954983]
本稿では,3つの下流タスクにおけるMoCoやSimCLRなど,多種多様な自己監督手法の転送性能について検討する。
彼らのパフォーマンスは、サブ最適か、あるいはシングルタスクベースラインよりもはるかに遅れていることに気付きました。
汎用マルチタスクトレーニングのための,単純かつ効果的な事前訓練-適応-ファインチューンパラダイムを提案する。
論文 参考訳(メタデータ) (2022-09-19T12:15:31Z) - Task Agnostic Representation Consolidation: a Self-supervised based
Continual Learning Approach [14.674494335647841]
本稿では,タスク非依存およびタスク特化学習に介入するCLのための2段階学習パラダイムを提案する。
我々のトレーニングパラダイムは、メモリや正規化に基づくアプローチに簡単に追加できることを示します。
論文 参考訳(メタデータ) (2022-07-13T15:16:51Z) - Task-Customized Self-Supervised Pre-training with Scalable Dynamic
Routing [76.78772372631623]
セルフ教師付き事前トレーニングの一般的な実践は、できるだけ多くのデータを使用することである。
しかし、特定のダウンストリームタスクでは、事前トレーニングで無関係なデータを含むと、ダウンストリームのパフォーマンスが低下する可能性がある。
異なるタスクのための事前トレーニングで、異なるダウンストリームタスクにカスタマイズされたデータセットを使用することは、重荷であり、実現不可能である。
論文 参考訳(メタデータ) (2022-05-26T10:49:43Z) - UPDeT: Universal Multi-agent Reinforcement Learning via Policy
Decoupling with Transformers [108.92194081987967]
タスクに適合する1つのアーキテクチャを設計し、汎用的なマルチエージェント強化学習パイプラインを最初に試行する。
従来のRNNモデルとは異なり、トランスフォーマーモデルを用いてフレキシブルなポリシーを生成する。
提案方式はUPDeT(Universal Policy Decoupling Transformer)と名付けられ,動作制限を緩和し,マルチエージェントタスクの決定プロセスをより説明しやすいものにする。
論文 参考訳(メタデータ) (2021-01-20T07:24:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。