論文の概要: Investigating Pre-Training Objectives for Generalization in Vision-Based Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2406.06037v1
- Date: Mon, 10 Jun 2024 06:06:38 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-11 14:56:30.969479
- Title: Investigating Pre-Training Objectives for Generalization in Vision-Based Reinforcement Learning
- Title(参考訳): ビジョンベース強化学習における一般化のための事前学習対象の検討
- Authors: Donghu Kim, Hojoon Lee, Kyungmin Lee, Dongyoon Hwang, Jaegul Choo,
- Abstract要約: Atari-PB(Atari-PB)は,50ゲームから1000万の移行に対して,ResNet-50モデルを事前トレーニングするベンチマークである。
本実験は,タスク非依存の特徴を学習することに焦点を当てた事前学習目標が,様々な環境における一般化を促進することを示す。
対照的に、タスク固有の知識の学習に焦点を当てた目的は、事前学習データセットと同様の環境におけるパフォーマンスを改善するが、様々なものではない。
- 参考スコア(独自算出の注目度): 41.1883663165909
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, various pre-training methods have been introduced in vision-based Reinforcement Learning (RL). However, their generalization ability remains unclear due to evaluations being limited to in-distribution environments and non-unified experimental setups. To address this, we introduce the Atari Pre-training Benchmark (Atari-PB), which pre-trains a ResNet-50 model on 10 million transitions from 50 Atari games and evaluates it across diverse environment distributions. Our experiments show that pre-training objectives focused on learning task-agnostic features (e.g., identifying objects and understanding temporal dynamics) enhance generalization across different environments. In contrast, objectives focused on learning task-specific knowledge (e.g., identifying agents and fitting reward functions) improve performance in environments similar to the pre-training dataset but not in varied ones. We publicize our codes, datasets, and model checkpoints at https://github.com/dojeon-ai/Atari-PB.
- Abstract(参考訳): 近年,視覚に基づく強化学習(Reinforcement Learning, RL)において, 様々な事前学習手法が導入されている。
しかし、その一般化能力は、分布内環境や統一されていない実験装置に限られているため、いまだに不明である。
そこで本研究では,50のAtariゲームから1000万のトランジションに対して,ResNet-50モデルを事前トレーニングするAtari-PB(Atari-PB)を導入し,多様な環境分布で評価する。
実験の結果,タスクに依存しない特徴(物体の識別や時間的ダイナミクスの理解など)の学習に焦点を当てた事前学習が,様々な環境における一般化を促進することがわかった。
対照的に、タスク固有の知識(例えば、エージェントの識別、報酬関数の適合など)の学習に焦点を当てた目的は、事前学習データセットと同様の環境におけるパフォーマンスを改善するが、様々なものではない。
コード、データセット、モデルチェックポイントをhttps://github.com/dojeon-ai/Atari-PB.comで公開しています。
関連論文リスト
- DRED: Zero-Shot Transfer in Reinforcement Learning via Data-Regularised Environment Design [11.922951794283168]
本研究では,RLエージェントのゼロショット一般化能力(ZSG)に,個々の環境インスタンスやレベルのサンプリングがどう影響するかを検討する。
基本層を共有する深いアクター・クリティカルなアーキテクチャでは, エージェントの内部表現と, 生成したトレーニングデータのトレーニングレベルとの相互情報を最小限に抑える。
既存のUED手法は,ZSG性能の低いトレーニング分布を著しくシフトできることがわかった。
オーバーフィッティングと分散シフトの両面を防止するため,データ正規化環境設計(D)を導入する。
論文 参考訳(メタデータ) (2024-02-05T19:47:45Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained
Networks [52.766795949716986]
本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。
本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
論文 参考訳(メタデータ) (2023-07-07T13:01:29Z) - ALP: Action-Aware Embodied Learning for Perception [60.64801970249279]
認知のための行動認識型身体学習(ALP)について紹介する。
ALPは、強化学習ポリシーと逆ダイナミクス予測目標を最適化することにより、行動情報を表現学習に組み込む。
ALPは、複数の下流認識タスクにおいて、既存のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-16T21:51:04Z) - Multi-Environment Pretraining Enables Transfer to Action Limited
Datasets [129.24823721649028]
強化学習では、意思決定の利用可能なデータは、アクションに注釈を付けないことが多い。
そこで本研究では,Emphtarget環境と他のさまざまなEmphsource環境の完全注釈付きデータセットを組み合わせることを提案する。
IDMプレトレーニング中に、さらに1つの連続ラベル付きデータの環境データセットを利用することで、アノテーションのないシーケンスに対するアクションラベルの生成が大幅に改善されることが示される。
論文 参考訳(メタデータ) (2022-11-23T22:48:22Z) - Improving Meta-Learning Generalization with Activation-Based
Early-Stopping [12.299371455015239]
数ショットの学習のためのメタラーニングアルゴリズムは、少数の例だけで新しいタスクに一般化できるニューラルネットワークを訓練することを目的としている。
早期停止は、新しいタスク分布に最適な一般化に達すると、モデルトレーニングを停止させる。
これは、メタテストセットが異なるターゲットデータセットから来る、数ショットの転送学習設定で問題となる。
論文 参考訳(メタデータ) (2022-08-03T22:55:45Z) - Unifying Language Learning Paradigms [96.35981503087567]
データセットやセットアップ全体にわたって普遍的に有効である事前学習モデルのための統一的なフレームワークを提案する。
本研究では, 事前学習対象を相互に配置し, 異なる対象間の補間を効果的に行う方法を示す。
また,テキスト内学習において,ゼロショットSuperGLUEで175B GPT-3,ワンショット要約でT5-XXLの性能を3倍に向上させた。
論文 参考訳(メタデータ) (2022-05-10T19:32:20Z) - Instance based Generalization in Reinforcement Learning [24.485597364200824]
部分観測可能なマルコフ決定過程(POMDP)の文脈における政策学習の分析
探索戦略とは独立に、再使用したインスタンスは、トレーニング中にエージェントが観察するマルコフダイナミクスに大きな変化をもたらすことを証明している。
我々は、データ収集に使用されるコンセンサスポリシーを計算し、インスタンス固有のエクスプロイトを許可しない、特別なポリシーのアンサンブルに対して共有信念表現を訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-02T16:19:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。