論文の概要: Learning from Visual Observation via Offline Pretrained State-to-Go
Transformer
- arxiv url: http://arxiv.org/abs/2306.12860v1
- Date: Thu, 22 Jun 2023 13:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 14:24:25.117216
- Title: Learning from Visual Observation via Offline Pretrained State-to-Go
Transformer
- Title(参考訳): オフライン事前学習による視覚観察からの学習
- Authors: Bohan Zhou, Ke Li, Jiechuan Jiang, Zongqing Lu
- Abstract要約: 視覚的観察から学ぶための2段階のフレームワークを提案する。
第1段階では、ステート・ツー・ゴー・トランスフォーマーをオフラインでトレーニングし、デモの遅延遷移を予測し、区別する。
第2段階では、STG Transformerは下流の強化学習タスクに固有の報酬を提供する。
- 参考スコア(独自算出の注目度): 29.548242447584194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from visual observation (LfVO), aiming at recovering policies from
only visual observation data, is promising yet a challenging problem. Existing
LfVO approaches either only adopt inefficient online learning schemes or
require additional task-specific information like goal states, making them not
suited for open-ended tasks. To address these issues, we propose a two-stage
framework for learning from visual observation. In the first stage, we
introduce and pretrain State-to-Go (STG) Transformer offline to predict and
differentiate latent transitions of demonstrations. Subsequently, in the second
stage, the STG Transformer provides intrinsic rewards for downstream
reinforcement learning tasks where an agent learns merely from intrinsic
rewards. Empirical results on Atari and Minecraft show that our proposed method
outperforms baselines and in some tasks even achieves performance comparable to
the policy learned from environmental rewards. These results shed light on the
potential of utilizing video-only data to solve difficult visual reinforcement
learning tasks rather than relying on complete offline datasets containing
states, actions, and rewards. The project's website and code can be found at
https://sites.google.com/view/stgtransformer.
- Abstract(参考訳): 視覚的観察データのみからポリシーを回復することを目的とした視覚的観察(LfVO)からの学習は、挑戦的な問題である。
既存のLfVOアプローチは、非効率なオンライン学習スキームを採用するか、ゴールステートのような追加のタスク固有の情報を必要とする。
そこで本研究では,視覚観察から学ぶための2段階フレームワークを提案する。
第1段階では,実演の潜在性遷移を予測・識別するために,stgトランスフォーマーをオフラインで導入・事前学習する。
その後、第2段階では、stgトランスフォーマーは、エージェントが単に内在的な報酬から学習する下流強化学習タスクに内在的な報酬を提供する。
atari と minecraft を用いた実験の結果,提案手法はベースラインを上回っており,いくつかのタスクでは環境報酬から学んだポリシーに匹敵する性能を実現していることがわかった。
これらの結果は、状態、アクション、報酬を含む完全なオフラインデータセットに頼るのではなく、ビデオのみのデータを使用して難しい視覚強化学習タスクを解決する可能性に光を当てた。
プロジェクトのWebサイトとコードはhttps://sites.google.com/view/stgtransformerで見ることができる。
関連論文リスト
- Pre-trained Visual Dynamics Representations for Efficient Policy Learning [33.62440075940917]
本稿では,ビデオと下流タスク間の領域ギャップを埋めて効率的なポリシー学習を実現するために,事前学習型ビジュアルダイナミクス表現(PVDR)を提案する。
事前訓練された視覚力学表現は、ビデオの知識以前の視覚力学をキャプチャする。
この抽象的な事前知識は、ダウンストリームタスクに容易に適応でき、オンライン適応を通じて実行可能なアクションと整合することができる。
論文 参考訳(メタデータ) (2024-11-05T15:18:02Z) - Leveraging Skills from Unlabeled Prior Data for Efficient Online Exploration [54.8229698058649]
本研究では,未ラベルの事前軌跡データを用いて効率的な探索戦略を学習する方法について検討する。
我々の手法 SUPE (Skills from Unlabeled Prior Data for Exploration) は、これらのアイデアの慎重な組み合わせがそれらの利点を兼ね備えていることを示す。
実験により,SUPEが従来の戦略を確実に上回り,長い水平・スパース・リワードタスクの一組の解決に成功したことを実証的に示す。
論文 参考訳(メタデータ) (2024-10-23T17:58:45Z) - Do Vision-Language Transformers Exhibit Visual Commonsense? An Empirical Study of VCR [51.72751335574947]
Visual Commonsense Reasoning (VCR)は、視覚的なシーンに対する質問応答の背後にある説明的推論を要求する。
ベンチマークデータセットの進歩は、Vision-Language Transformers(VL Transformers)の最近の進歩に大きく起因している。
本稿では、VLトランスフォーマーは、VCRの鍵となる視覚的コモンセンスを示さないことを仮定する。
論文 参考訳(メタデータ) (2024-05-27T08:26:58Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - Goal-Guided Transformer-Enabled Reinforcement Learning for Efficient
Autonomous Navigation [15.501449762687148]
本稿ではゴール誘導ナビゲーションのためのゴール誘導トランスフォーマー対応強化学習(GTRL)手法を提案する。
本手法は,DRL学習プロセスのデータ効率を大幅に向上させる,主にゴール関連機能に焦点を当てたシーン表現の動機付けである。
データ効率, 性能, 堅牢性, および sim-to-real 一般化の観点から, シミュレーションと実世界の実験結果の両方が, 我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-01-01T07:14:30Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Off-policy Imitation Learning from Visual Inputs [83.22342811160114]
本稿では、政治以外の学習方法、データ拡張、エンコーダ技術からなるOPIfVIを提案する。
OPIfVIは、エキスパートレベルのパフォーマンスを実現し、既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-11-08T09:06:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。