論文の概要: Unsupervised Visual Attention and Invariance for Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2104.02921v1
- Date: Wed, 7 Apr 2021 05:28:01 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-08 12:37:23.996844
- Title: Unsupervised Visual Attention and Invariance for Reinforcement Learning
- Title(参考訳): 強化学習のための教師なし視覚注意と不変性
- Authors: Xudong Wang, Long Lian, Stella X. Yu
- Abstract要約: 我々は,タスクに無関係に干渉要因を分散させる独立したモジュールを開発し,視覚に基づく強化学習政策の「クリーン」な観察を行う。
すべてのコンポーネントは、手動アノテーションや環境内部へのアクセスなしに、監視されていない方法で最適化されます。
VAIは強力な一般化能力を示し、DeepMind Controlのベンチマークでは現在の最先端(SOTA)メソッドを15%から49%上回っている。
- 参考スコア(独自算出の注目度): 25.673868326662024
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The vision-based reinforcement learning (RL) has achieved tremendous success.
However, generalizing vision-based RL policy to unknown test environments still
remains as a challenging problem. Unlike previous works that focus on training
a universal RL policy that is invariant to discrepancies between test and
training environment, we focus on developing an independent module to disperse
interference factors irrelevant to the task, thereby providing "clean"
observations for the RL policy.
The proposed unsupervised visual attention and invariance method (VAI)
contains three key components: 1) an unsupervised keypoint detection model
which captures semantically meaningful keypoints in observations; 2) an
unsupervised visual attention module which automatically generates the
distraction-invariant attention mask for each observation; 3) a self-supervised
adapter for visual distraction invariance which reconstructs
distraction-invariant attention mask from observations with artificial
disturbances generated by a series of foreground and background augmentations.
All components are optimized in an unsupervised way, without manual annotation
or access to environment internals, and only the adapter is used during
inference time to provide distraction-free observations to RL policy.
VAI empirically shows powerful generalization capabilities and significantly
outperforms current state-of-the-art (SOTA) method by 15% to 49% in DeepMind
Control suite benchmark and 61% to 229% in our proposed robot manipulation
benchmark, in term of cumulative rewards per episode.
- Abstract(参考訳): 視覚に基づく強化学習(RL)は大きな成功を収めた。
しかし、未知のテスト環境へのビジョンベースのrlポリシーの一般化は依然として困難な問題である。
テスト環境とトレーニング環境の相違に不変な普遍的なrlポリシーのトレーニングに焦点を当てた以前の作業とは異なり、タスクに無関係な干渉要因を分散する独立したモジュールの開発に重点を置いており、rlポリシーに「クリーン」な観察を提供する。
The proposed unsupervised visual attention and invariance method (VAI) contains three key components: 1) an unsupervised keypoint detection model which captures semantically meaningful keypoints in observations; 2) an unsupervised visual attention module which automatically generates the distraction-invariant attention mask for each observation; 3) a self-supervised adapter for visual distraction invariance which reconstructs distraction-invariant attention mask from observations with artificial disturbances generated by a series of foreground and background augmentations.
すべてのコンポーネントは、手動のアノテーションや環境内部へのアクセスなしに、教師なしの方法で最適化されている。
VAIは実演で強力な一般化能力を示し、DeepMind Controlスイートベンチマークでは15%から49%、提案したロボット操作ベンチマークでは61%から229%と、各エピソード当たりの累積報酬において、現在の最先端(SOTA)手法を著しく上回っている。
関連論文リスト
- ACTRESS: Active Retraining for Semi-supervised Visual Grounding [52.08834188447851]
前回の研究であるRefTeacherは、疑似自信と注意に基づく監督を提供するために教師学生の枠組みを採用することで、この課題に取り組むための最初の試みである。
このアプローチは、Transformerベースのパイプラインに従う現在の最先端のビジュアルグラウンドモデルと互換性がない。
本稿では, ACTRESS を略したセミスーパービジョン視覚グラウンドのためのアクティブ・リトレーニング手法を提案する。
論文 参考訳(メタデータ) (2024-07-03T16:33:31Z) - Foundation Policies with Hilbert Representations [54.44869979017766]
ラベルなしオフラインデータから一般ポリシーを事前学習するための教師なしフレームワークを提案する。
我々の重要な洞察は、基盤となる環境の時間的構造を保存する構造的表現を学習することである。
実験の結果、教師なしのポリシーは、ゴール条件付きおよび一般のRLタスクをゼロショットで解決できることがわかった。
論文 参考訳(メタデータ) (2024-02-23T19:09:10Z) - An Efficient Generalizable Framework for Visuomotor Policies via
Control-aware Augmentation and Privilege-guided Distillation [47.61391583947082]
Visuomotor Policyは、高次元視覚観察から直接制御メカニズムを学ぶ。
データ拡張は、データの多様性を豊かにすることで一般化ギャップを埋める有望な方法として現れる。
本稿では,ビジュモータ政策の一般化能力の向上と,2つの側面からトレーニング安定性を維持することを提案する。
論文 参考訳(メタデータ) (2024-01-17T15:05:00Z) - Towards Unsupervised Representation Learning: Learning, Evaluating and
Transferring Visual Representations [1.8130068086063336]
我々は3つの視点から教師なし(視覚的)表現学習の分野に貢献する。
我々は、教師なし、バックプロパゲーションのない畳み込み自己組織型ニューラルネットワーク(CSNN)を設計する。
我々は、プリテキストとターゲットオブジェクトに依存しないメトリクスを定義するために、広く使われている(非)線形評価プロトコルの上に構築する。
CARLANEは,2次元車線検出のための最初の3方向sim-to-realドメイン適応ベンチマークであり,自己教師付き学習に基づく手法である。
論文 参考訳(メタデータ) (2023-11-30T15:57:55Z) - VIBR: Learning View-Invariant Value Functions for Robust Visual Control [3.2307366446033945]
VIBR (View-Invariant Bellman Residuals) は、マルチビュートレーニングと不変予測を組み合わせて、RLベースのビジュモータ制御における分配ギャップを削減する手法である。
視覚摂動の高い複雑なビジュオモータ制御環境において,VIBRは既存の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-14T14:37:34Z) - Mastering the Unsupervised Reinforcement Learning Benchmark from Pixels [112.63440666617494]
強化学習アルゴリズムは成功するが、エージェントと環境の間の大量の相互作用を必要とする。
本稿では,教師なしモデルベースRLを用いてエージェントを事前学習する手法を提案する。
我々はReal-Word RLベンチマークにおいて、適応中の環境摂動に対する抵抗性を示唆し、堅牢な性能を示す。
論文 参考訳(メタデータ) (2022-09-24T14:22:29Z) - Hybrid Dynamic Contrast and Probability Distillation for Unsupervised
Person Re-Id [109.1730454118532]
非監督的人物再識別(Re-Id)は、リードワールドビデオ監視システムにおける実践的応用により注目されている。
本稿では,ハイブリッド動的クラスタコントラストと確率蒸留アルゴリズムを提案する。
教師なしRe-Id問題を局所-言語的ダイナミックコントラスト学習と自己教師付き確率蒸留の枠組みに統合する。
論文 参考訳(メタデータ) (2021-09-29T02:56:45Z) - Digging into Uncertainty in Self-supervised Multi-view Stereo [57.04768354383339]
自己教師型学習のための新しいuncertainty reduction Multi-view Stereo(UMVS)フレームワークを提案する。
我々のフレームワークは、教師なしのMVSメソッドの中で最高のパフォーマンスを達成し、教師なしの対戦相手と競合する性能を実現している。
論文 参考訳(メタデータ) (2021-08-30T02:53:08Z) - Robust Deep Reinforcement Learning via Multi-View Information Bottleneck [7.188571996124112]
マルチビュー情報ボトルネック(MIB)の原理に基づく補助目標を提案する。
これにより、未来を予測的かつタスク非関連な気遣いに敏感な学習表現が促進される。
背景が自然な映像に置き換えられた場合でも、視覚制御の課題に対してSOTAの性能を発揮できることを実証します。
論文 参考訳(メタデータ) (2021-02-26T02:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。