論文の概要: Pre-Trained Image Encoder for Generalizable Visual Reinforcement
Learning
- arxiv url: http://arxiv.org/abs/2212.08860v1
- Date: Sat, 17 Dec 2022 12:45:08 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 18:09:32.300603
- Title: Pre-Trained Image Encoder for Generalizable Visual Reinforcement
Learning
- Title(参考訳): 視覚強化学習のための事前学習画像エンコーダ
- Authors: Zhecheng Yuan, Zhengrong Xue, Bo Yuan, Xueqian Wang, Yi Wu, Yang Gao,
Huazhe Xu
- Abstract要約: 一般化可能ビジュアル強化学習(PIE-G)のための事前学習画像を提案する。
PIE-Gは、目に見えない視覚シナリオをゼロショットで一般化できる、シンプルで効果的なフレームワークである。
実証的な証拠は、PIE-Gがサンプル効率を向上し、一般化性能の点で従来の最先端手法を著しく上回っていることを示唆している。
- 参考スコア(独自算出の注目度): 27.304282924423095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning generalizable policies that can adapt to unseen environments remains
challenging in visual Reinforcement Learning (RL). Existing approaches try to
acquire a robust representation via diversifying the appearances of in-domain
observations for better generalization. Limited by the specific observations of
the environment, these methods ignore the possibility of exploring diverse
real-world image datasets. In this paper, we investigate how a visual RL agent
would benefit from the off-the-shelf visual representations. Surprisingly, we
find that the early layers in an ImageNet pre-trained ResNet model could
provide rather generalizable representations for visual RL. Hence, we propose
Pre-trained Image Encoder for Generalizable visual reinforcement learning
(PIE-G), a simple yet effective framework that can generalize to the unseen
visual scenarios in a zero-shot manner. Extensive experiments are conducted on
DMControl Generalization Benchmark, DMControl Manipulation Tasks, Drawer World,
and CARLA to verify the effectiveness of PIE-G. Empirical evidence suggests
PIE-G improves sample efficiency and significantly outperforms previous
state-of-the-art methods in terms of generalization performance. In particular,
PIE-G boasts a 55% generalization performance gain on average in the
challenging video background setting. Project Page:
https://sites.google.com/view/pie-g/home.
- Abstract(参考訳): 視覚強化学習(RL)では、目に見えない環境に適応できる一般化可能な政策の学習が依然として困難である。
既存のアプローチは、よりよい一般化のためにドメイン内観測の外観を多様化することで、堅牢な表現を得ようとしている。
環境の特定の観測によって制限されたこれらの手法は、多様な現実世界の画像データセットを探索する可能性を無視する。
本稿では,視覚的RLエージェントが市販の視覚表現からどのような恩恵を受けるかを検討する。
驚いたことに、imagenetで事前トレーニングされたresnetモデルの初期レイヤは、visual rlにかなり一般化された表現を提供することができる。
そこで本稿では,ゼロショット方式で未知の視覚シナリオに一般化可能な,シンプルかつ効果的なフレームワークである汎用視覚強化学習(PIE-G)のための事前学習画像エンコーダを提案する。
PIE-Gの有効性を検証するため, DMControl Generalization Benchmark, DMControl Manipulation Tasks, Drawer World, CARLAで大規模な実験を行った。
実証的な証拠は、PIE-Gがサンプル効率を向上し、一般化性能の点で従来の最先端手法を著しく上回っていることを示している。
特にpie-gは、挑戦的なビデオ背景設定で平均55%のパフォーマンス向上を誇っている。
プロジェクトページ: https://sites.google.com/view/pie-g/home.com
関連論文リスト
- Adaptive Masking Enhances Visual Grounding [12.793586888511978]
ローショット学習シナリオにおける語彙接地を改善するために,ガウス放射変調を用いた画像解釈型マスキングを提案する。
我々はCOCOやODinWを含むベンチマークデータセットに対するアプローチの有効性を評価し、ゼロショットタスクや少数ショットタスクにおいて優れた性能を示す。
論文 参考訳(メタデータ) (2024-10-04T05:48:02Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Improving Generalization via Meta-Learning on Hard Samples [8.96835934244022]
検証集合における難しい分類インスタンスの使用は、理論上の関係と、一般化の強い経験的証拠の両方を持つことを示す。
我々は,このメタ最適化モデルを訓練するための効率的なアルゴリズムと,注意深い比較研究のための簡単なトレインツースを提供する。
論文 参考訳(メタデータ) (2024-03-18T20:33:44Z) - Appearance Debiased Gaze Estimation via Stochastic Subject-Wise
Adversarial Learning [33.55397868171977]
外観に基づく視線推定はコンピュータビジョンにおいて注目されており、様々な深層学習技術を用いて顕著な改善が達成されている。
本稿では,被験者の外観を一般化するネットワークを訓練する,SAZE学習という新しい枠組みを提案する。
実験の結果,MPIIGazeデータセットとEyeDiapデータセットの3.89と4.42をそれぞれ達成した。
論文 参考訳(メタデータ) (2024-01-25T00:23:21Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Learning Task-relevant Representations for Generalization via
Characteristic Functions of Reward Sequence Distributions [63.773813221460614]
同じタスクで異なる環境にまたがる一般化は、視覚的強化学習の成功に不可欠である。
本稿では,タスク関連情報を抽出する手法として,特徴逆列予測(CRESP)を提案する。
実験により、CRESPは目に見えない環境での一般化性能を大幅に向上することが示された。
論文 参考訳(メタデータ) (2022-05-20T14:52:03Z) - Reinforcement Learning with Action-Free Pre-Training from Videos [95.25074614579646]
本稿では,ビデオにおける生成前学習を通じて動的理解に役立つ表現を学習するフレームワークを提案する。
我々のフレームワークは、視覚に基づく強化学習の最終性能とサンプル効率の両方を著しく改善する。
論文 参考訳(メタデータ) (2022-03-25T19:44:09Z) - More is Better: A Novel Multi-view Framework for Domain Generalization [28.12350681444117]
ドメイン一般化(DG)の主な課題は、観測されたソースドメインへの過度な適合を防ぐ方法である。
タスクとイメージを異なる視点として扱うことにより,新しい多視点DGフレームワークを提案する。
テスト段階では、不安定な予測を緩和するため、複数の拡張現実画像を用いて多視点予測を行う。
論文 参考訳(メタデータ) (2021-12-23T02:51:35Z) - On Efficient Transformer and Image Pre-training for Low-level Vision [74.22436001426517]
プレトレーニングは、ハイレベルコンピュータビジョンにおける多くの最先端の芸術である。
画像事前学習の詳細な研究について述べる。
低レベルのタスクでは,事前トレーニングが極めて異なる役割を担っています。
論文 参考訳(メタデータ) (2021-12-19T15:50:48Z) - Robust Deep Reinforcement Learning via Multi-View Information Bottleneck [7.188571996124112]
マルチビュー情報ボトルネック(MIB)の原理に基づく補助目標を提案する。
これにより、未来を予測的かつタスク非関連な気遣いに敏感な学習表現が促進される。
背景が自然な映像に置き換えられた場合でも、視覚制御の課題に対してSOTAの性能を発揮できることを実証します。
論文 参考訳(メタデータ) (2021-02-26T02:24:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。