論文の概要: SECANT: Self-Expert Cloning for Zero-Shot Generalization of Visual
Policies
- arxiv url: http://arxiv.org/abs/2106.09678v1
- Date: Thu, 17 Jun 2021 17:28:18 GMT
- ステータス: 処理完了
- システム内更新日: 2021-06-18 16:14:48.075715
- Title: SECANT: Self-Expert Cloning for Zero-Shot Generalization of Visual
Policies
- Title(参考訳): SECANT: ビジュアルポリシーのゼロショット一般化のための自己拡張クローン
- Authors: Linxi Fan, Guanzhi Wang, De-An Huang, Zhiding Yu, Li Fei-Fei, Yuke
Zhu, Anima Anandkumar
- Abstract要約: 総合化は強化学習(RL)の長年にわたる課題である。
本研究では,ゼロショットの一般化を目標としたロバストなポリシー学習を,大規模な分布シフトを伴う視覚環境に対して検討する。
本稿では,2段階のイメージ拡張を利用して,ロバスト表現学習をポリシー最適化から切り離す,新たな自己経験的クローニング手法であるSECANTを提案する。
- 参考スコア(独自算出の注目度): 87.78260740602674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generalization has been a long-standing challenge for reinforcement learning
(RL). Visual RL, in particular, can be easily distracted by irrelevant factors
in high-dimensional observation space. In this work, we consider robust policy
learning which targets zero-shot generalization to unseen visual environments
with large distributional shift. We propose SECANT, a novel self-expert cloning
technique that leverages image augmentation in two stages to decouple robust
representation learning from policy optimization. Specifically, an expert
policy is first trained by RL from scratch with weak augmentations. A student
network then learns to mimic the expert policy by supervised learning with
strong augmentations, making its representation more robust against visual
variations compared to the expert. Extensive experiments demonstrate that
SECANT significantly advances the state of the art in zero-shot generalization
across 4 challenging domains. Our average reward improvements over prior SOTAs
are: DeepMind Control (+26.5%), robotic manipulation (+337.8%), vision-based
autonomous driving (+47.7%), and indoor object navigation (+15.8%). Code
release and video are available at https://linxifan.github.io/secant-site/.
- Abstract(参考訳): 一般化は強化学習(RL)の長年にわたる課題である。
特に視覚rlは、高次元の観察空間における無関係な要因によって容易に注意をそらすことができる。
本研究では,ゼロショットの一般化を目標としたロバストなポリシー学習を,大規模な分布シフトを伴う視覚環境に対して検討する。
本稿では,2段階のイメージ拡張を利用して,ロバストな表現学習をポリシー最適化から切り離す手法であるSECANTを提案する。
具体的には、エキスパートポリシーは、まずRLによって、弱い拡張でゼロから訓練される。
その後、学生ネットワークは、強力な強化による教師付き学習によって専門家の方針を模倣することを学び、その表現を専門家と比較して視覚的変動に対してより堅牢にする。
大規模な実験により、SECANTは4つの挑戦領域にわたるゼロショットの一般化において、技術の状態を著しく向上させることが示された。
これまでのSOTAよりも平均的な報酬改善は、DeepMind Control (+26.5%)、ロボット操作(+337.8%)、視覚ベースの自動運転(+47.7%)、屋内オブジェクトナビゲーション(+15.8%)である。
コードリリースとビデオはhttps://linxifan.github.io/secant-site/で入手できる。
関連論文リスト
- A Recipe for Unbounded Data Augmentation in Visual Reinforcement Learning [12.889687274108248]
Q-learningアルゴリズムは、視覚的な観察からトレーニングされた時に、不安定さを過度に調整し、訓練する傾向がある。
そこで本研究では,より広範に拡張可能な一般化されたレシピであるSADAを提案する。
提案手法は,RLエージェントのトレーニング安定性と一般化を,多種多様な拡張セットで大幅に向上させる。
論文 参考訳(メタデータ) (2024-05-27T17:58:23Z) - An Efficient Generalizable Framework for Visuomotor Policies via
Control-aware Augmentation and Privilege-guided Distillation [47.61391583947082]
Visuomotor Policyは、高次元視覚観察から直接制御メカニズムを学ぶ。
データ拡張は、データの多様性を豊かにすることで一般化ギャップを埋める有望な方法として現れる。
本稿では,ビジュモータ政策の一般化能力の向上と,2つの側面からトレーニング安定性を維持することを提案する。
論文 参考訳(メタデータ) (2024-01-17T15:05:00Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Bootstrap State Representation using Style Transfer for Better
Generalization in Deep Reinforcement Learning [16.999444076456268]
シンガー(Thinker)は、教師なしの方法で観察された特徴の逆効果を除去するブートストラップ法である。
Thinkerは多くのDeep Reinforcement Learning設定に幅広い適用性がある。
論文 参考訳(メタデータ) (2022-07-15T20:49:45Z) - Masked Autoencoders are Robust Data Augmentors [90.34825840657774]
ディープニューラルネットワークの一般化には、画像拡張のような正規化技術が必要である。
本稿では,トレーニングプロセスの正規化に向けて,新たな拡張の視点を提案する。
このようなモデルに基づく非線形変換をデータ拡張として活用することで,高レベルの認識タスクを向上できることを示す。
論文 参考訳(メタデータ) (2022-06-10T02:41:48Z) - Improving Transferability of Representations via Augmentation-Aware
Self-Supervision [117.15012005163322]
AugSelfは、ランダムに強化された2つのサンプル間の拡張パラメータの違いを学習する補助的な自己教師型損失である。
私たちの直感は、AugSelfが学習表現における拡張認識情報の保存を奨励していることです。
AugSelfは、最新の最先端の表現学習手法に、無視できる追加のトレーニングコストで簡単に組み込むことができる。
論文 参考訳(メタデータ) (2021-11-18T10:43:50Z) - Explore and Control with Adversarial Surprise [78.41972292110967]
強化学習(Reinforcement Learning, RL)は、目標指向のポリシーを学習するためのフレームワークである。
本稿では,RLエージェントが経験した驚きの量と競合する2つのポリシーを相殺する対戦ゲームに基づく,新しい教師なしRL手法を提案する。
本手法は, 明確な相転移を示すことによって, 複雑なスキルの出現につながることを示す。
論文 参考訳(メタデータ) (2021-07-12T17:58:40Z) - Unsupervised Visual Attention and Invariance for Reinforcement Learning [25.673868326662024]
我々は,タスクに無関係に干渉要因を分散させる独立したモジュールを開発し,視覚に基づく強化学習政策の「クリーン」な観察を行う。
すべてのコンポーネントは、手動アノテーションや環境内部へのアクセスなしに、監視されていない方法で最適化されます。
VAIは強力な一般化能力を示し、DeepMind Controlのベンチマークでは現在の最先端(SOTA)メソッドを15%から49%上回っている。
論文 参考訳(メタデータ) (2021-04-07T05:28:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。