論文の概要: CtrlFormer: Learning Transferable State Representation for Visual
Control via Transformer
- arxiv url: http://arxiv.org/abs/2206.08883v1
- Date: Fri, 17 Jun 2022 16:32:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-20 12:50:32.643966
- Title: CtrlFormer: Learning Transferable State Representation for Visual
Control via Transformer
- Title(参考訳): CtrlFormer: トランスフォーマーによる視覚制御のための伝達可能な状態表現学習
- Authors: Yao Mu, Shoufa Chen, Mingyu Ding, Jianyu Chen, Runjian Chen, Ping Luo
- Abstract要約: Transformerは視覚と言語表現の学習で大きな成功を収めた。
視覚制御では、異なる制御タスク間で伝達可能な移動可能な状態表現を学習することが、トレーニングサンプルサイズの削減に重要である。
我々は,先行技術にはない多くの魅力ある利点を有する新しい制御変換器(CtrlFormer)を提案する。
- 参考スコア(独自算出の注目度): 25.91841745599726
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer has achieved great successes in learning vision and language
representation, which is general across various downstream tasks. In visual
control, learning transferable state representation that can transfer between
different control tasks is important to reduce the training sample size.
However, porting Transformer to sample-efficient visual control remains a
challenging and unsolved problem. To this end, we propose a novel Control
Transformer (CtrlFormer), possessing many appealing benefits that prior arts do
not have. Firstly, CtrlFormer jointly learns self-attention mechanisms between
visual tokens and policy tokens among different control tasks, where multitask
representation can be learned and transferred without catastrophic forgetting.
Secondly, we carefully design a contrastive reinforcement learning paradigm to
train CtrlFormer, enabling it to achieve high sample efficiency, which is
important in control problems. For example, in the DMControl benchmark, unlike
recent advanced methods that failed by producing a zero score in the "Cartpole"
task after transfer learning with 100k samples, CtrlFormer can achieve a
state-of-the-art score with only 100k samples while maintaining the performance
of previous tasks. The code and models are released in our project homepage.
- Abstract(参考訳): Transformerは、様々な下流タスクにまたがる視覚と言語表現の学習において、大きな成功を収めてきた。
視覚的制御では、異なる制御タスク間で転送可能な転送可能な状態表現の学習が、トレーニングサンプルサイズを減らすために重要である。
しかし、Transformerをサンプル効率のよいビジュアルコントロールに移植することは難しい問題であり、未解決である。
そこで本研究では,先行技術が備えていない多くの魅力ある利点を有する新しい制御変換器(CtrlFormer)を提案する。
まず、ctrlformerは、異なる制御タスク間の視覚的トークンとポリシートークン間の自己照応機構を共同で学習し、マルチタスク表現を破滅的な忘れずに学習し、転送することができる。
第2に,ctrlformerを訓練するためのコントラスト強化学習パラダイムを慎重に設計し,制御問題において重要なサンプル効率を実現する。
例えば、DMControlベンチマークでは、100kサンプルの転送学習後に"Cartpole"タスクでゼロスコアを生成できなかった最近の高度なメソッドとは異なり、CtrlFormerは100kサンプルのみの最先端スコアを達成でき、以前のタスクのパフォーマンスを維持している。
コードとモデルはプロジェクトのホームページでリリースされています。
関連論文リスト
- ViSaRL: Visual Reinforcement Learning Guided by Human Saliency [6.969098096933547]
ビジュアル・サリエンシ指導型強化学習(ViSaRL)を紹介する。
ViSaRLを用いて視覚表現を学習すると、RLエージェントの成功率、サンプル効率、一般化が大幅に向上する。
ViSaRLを用いて学習した視覚表現は、知覚ノイズやシーンの変動など、様々な視覚摂動の源泉に対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-03-16T14:52:26Z) - Q-Transformer: Scalable Offline Reinforcement Learning via
Autoregressive Q-Functions [143.89572689302497]
大規模なオフラインデータセットからマルチタスクポリシーをトレーニングするためのスケーラブルな強化学習手法を提案する。
本手法は,オフライン時間差分バックアップによりトレーニングしたQ関数のスケーラブルな表現を実現するためにTransformerを用いている。
そこで本研究では,Q-Transformerが,多種多様な実世界のロボット操作タスクスイート上で,事前のオフラインRLアルゴリズムと模倣学習技術より優れていることを示す。
論文 参考訳(メタデータ) (2023-09-18T21:00:38Z) - Contrastive Example-Based Control [163.6482792040079]
報酬関数ではなく多段階遷移の暗黙的なモデルを学ぶオフラインのサンプルベース制御法を提案する。
状態ベースおよび画像ベースのオフライン制御タスクの範囲で、学習された報酬関数を使用するベースラインよりも優れています。
論文 参考訳(メタデータ) (2023-07-24T19:43:22Z) - TACO: Temporal Latent Action-Driven Contrastive Loss for Visual Reinforcement Learning [73.53576440536682]
時間的行動駆動型コントラスト学習(TACO: Temporal Action-driven Contrastive Learning)は、時間的コントラスト学習の強力なアプローチである。
TACOは、現在の状態の表現間の相互情報を最適化することにより、状態と行動表現を同時に学習する。
オンラインRLでは、TACOは100万の環境インタラクションステップの後、40%のパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2023-06-22T22:21:53Z) - MulT: An End-to-End Multitask Learning Transformer [66.52419626048115]
我々はMulTと呼ばれるエンドツーエンドのマルチタスク学習トランスフォーマフレームワークを提案し、複数のハイレベル視覚タスクを同時に学習する。
本フレームワークは,入力画像を共有表現にエンコードし,タスク固有のトランスフォーマーベースのデコーダヘッドを用いて各視覚タスクの予測を行う。
論文 参考訳(メタデータ) (2022-05-17T13:03:18Z) - Visual Transformer for Task-aware Active Learning [49.903358393660724]
プールベースのアクティブラーニングのための新しいパイプラインを提案する。
提案手法は,学習中に使用可能なアンラベリング例を利用して,ラベル付き例との相関関係を推定する。
ビジュアルトランスフォーマーは、ラベル付き例と非ラベル付き例の間の非ローカルビジュアル概念依存性をモデル化する。
論文 参考訳(メタデータ) (2021-06-07T17:13:59Z) - A Meta-Reinforcement Learning Approach to Process Control [3.9146761527401424]
メタラーニングは、ニューラルネットワークなどのモデルを迅速に適応させ、新しいタスクを実行することを目的としています。
制御器を構築し,別の埋め込みニューラルネットワークを用いて潜在コンテキスト変数を用いて制御器をメタトレーニングする。
どちらの場合も、メタラーニングアルゴリズムは新しいタスクに非常に迅速に適応し、ゼロから訓練された通常のDRLコントローラよりも優れています。
論文 参考訳(メタデータ) (2021-03-25T18:20:56Z) - Robust Policies via Mid-Level Visual Representations: An Experimental
Study in Manipulation and Navigation [115.4071729927011]
エンド・ツー・エンドのRLフレームワークにおいて,中間レベルの視覚表現を汎用的かつ容易に認識可能な知覚状態として用いることの効果について検討した。
一般化を支援し、サンプルの複雑さを改善し、最終的なパフォーマンスを高めることを示します。
実際には、ドメインのランダム化やスクラッチからの学習が失敗したタスクのポリシーをうまくトレーニングするために、中間レベルの表現が使用できる。
論文 参考訳(メタデータ) (2020-11-13T00:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。