論文の概要: Learning from Visual Observation via Offline Pretrained State-to-Go
Transformer
- arxiv url: http://arxiv.org/abs/2306.12860v1
- Date: Thu, 22 Jun 2023 13:14:59 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-23 14:24:25.117216
- Title: Learning from Visual Observation via Offline Pretrained State-to-Go
Transformer
- Title(参考訳): オフライン事前学習による視覚観察からの学習
- Authors: Bohan Zhou, Ke Li, Jiechuan Jiang, Zongqing Lu
- Abstract要約: 視覚的観察から学ぶための2段階のフレームワークを提案する。
第1段階では、ステート・ツー・ゴー・トランスフォーマーをオフラインでトレーニングし、デモの遅延遷移を予測し、区別する。
第2段階では、STG Transformerは下流の強化学習タスクに固有の報酬を提供する。
- 参考スコア(独自算出の注目度): 29.548242447584194
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Learning from visual observation (LfVO), aiming at recovering policies from
only visual observation data, is promising yet a challenging problem. Existing
LfVO approaches either only adopt inefficient online learning schemes or
require additional task-specific information like goal states, making them not
suited for open-ended tasks. To address these issues, we propose a two-stage
framework for learning from visual observation. In the first stage, we
introduce and pretrain State-to-Go (STG) Transformer offline to predict and
differentiate latent transitions of demonstrations. Subsequently, in the second
stage, the STG Transformer provides intrinsic rewards for downstream
reinforcement learning tasks where an agent learns merely from intrinsic
rewards. Empirical results on Atari and Minecraft show that our proposed method
outperforms baselines and in some tasks even achieves performance comparable to
the policy learned from environmental rewards. These results shed light on the
potential of utilizing video-only data to solve difficult visual reinforcement
learning tasks rather than relying on complete offline datasets containing
states, actions, and rewards. The project's website and code can be found at
https://sites.google.com/view/stgtransformer.
- Abstract(参考訳): 視覚的観察データのみからポリシーを回復することを目的とした視覚的観察(LfVO)からの学習は、挑戦的な問題である。
既存のLfVOアプローチは、非効率なオンライン学習スキームを採用するか、ゴールステートのような追加のタスク固有の情報を必要とする。
そこで本研究では,視覚観察から学ぶための2段階フレームワークを提案する。
第1段階では,実演の潜在性遷移を予測・識別するために,stgトランスフォーマーをオフラインで導入・事前学習する。
その後、第2段階では、stgトランスフォーマーは、エージェントが単に内在的な報酬から学習する下流強化学習タスクに内在的な報酬を提供する。
atari と minecraft を用いた実験の結果,提案手法はベースラインを上回っており,いくつかのタスクでは環境報酬から学んだポリシーに匹敵する性能を実現していることがわかった。
これらの結果は、状態、アクション、報酬を含む完全なオフラインデータセットに頼るのではなく、ビデオのみのデータを使用して難しい視覚強化学習タスクを解決する可能性に光を当てた。
プロジェクトのWebサイトとコードはhttps://sites.google.com/view/stgtransformerで見ることができる。
関連論文リスト
- The First to Know: How Token Distributions Reveal Hidden Knowledge in Large Vision-Language Models? [34.27319941609499]
本研究では線形プローブを用いてLVLMの出力層における隠れた知識を隠蔽する。
本報告では,最初のトークンのロジット分布は命令に応答するかどうかを決定するのに十分な情報を含んでいることを示す。
論文 参考訳(メタデータ) (2024-03-14T02:25:35Z) - Value Explicit Pretraining for Learning Transferable Representations [11.069853883599102]
本稿では,伝達強化学習のための一般化可能な表現を学習する手法を提案する。
我々は、目的条件付き表現のためのエンコーダを学習することで、前回学習したタスクと同様の目的を共有する新しいタスクを学ぶ。
現実的なナビゲーションシミュレータとAtariベンチマークを用いて実験したところ,本手法により生成された事前学習エンコーダは,現在のSoTA事前学習法より優れていることがわかった。
論文 参考訳(メタデータ) (2023-12-19T17:12:35Z) - Goal-Guided Transformer-Enabled Reinforcement Learning for Efficient
Autonomous Navigation [15.501449762687148]
本稿ではゴール誘導ナビゲーションのためのゴール誘導トランスフォーマー対応強化学習(GTRL)手法を提案する。
本手法は,DRL学習プロセスのデータ効率を大幅に向上させる,主にゴール関連機能に焦点を当てたシーン表現の動機付けである。
データ効率, 性能, 堅牢性, および sim-to-real 一般化の観点から, シミュレーションと実世界の実験結果の両方が, 我々のアプローチの優位性を示している。
論文 参考訳(メタデータ) (2023-01-01T07:14:30Z) - Fine-grained Visual-Text Prompt-Driven Self-Training for Open-Vocabulary
Object Detection [87.39089806069707]
オープン語彙検出(VTP-OVD)のための微粒なビジュアルテキストプロンプト駆動型自己学習パラダイムを提案する。
適応段階では、学習可能なテキストプロンプトを用いて細粒度アライメントを可能とし、補助的なピクセルワイズ予測タスクを解決する。
実験の結果,COCO の未確認クラスでは,31.5% mAP など,オープン語彙オブジェクト検出の最先端性能が得られた。
論文 参考訳(メタデータ) (2022-11-02T03:38:02Z) - Pushing the Limits of Simple Pipelines for Few-Shot Learning: External
Data and Fine-Tuning Make a Difference [74.80730361332711]
コンピュータビジョンにおいて、ほとんどショット学習は重要かつトピック的な問題である。
単純なトランスフォーマーベースのパイプラインは、標準ベンチマークで驚くほど優れたパフォーマンスが得られることを示す。
論文 参考訳(メタデータ) (2022-04-15T02:55:58Z) - Self-Promoted Supervision for Few-Shot Transformer [178.52948452353834]
SUN(Self-promoted sUpervisioN)は視覚変換器(ViT)のための数発の学習フレームワークである
SUNは、数ショットの学習データセットでViTを事前トレーニングし、各パッチトークンを導くために、個別のロケーション固有の監視を生成する。
実験によると、ViTを使ったSUNは、ViTを使った他の数発の学習フレームワークを大幅に上回っており、CNNの最先端技術よりも高いパフォーマンスを実現している。
論文 参考訳(メタデータ) (2022-03-14T12:53:27Z) - PreViTS: Contrastive Pretraining with Video Tracking Supervision [53.73237606312024]
PreViTSは、同じオブジェクトを含むクリップを選択するための教師なしSSLフレームワークである。
PreViTSはフレーム領域を空間的に制約し、モデルから学習し、意味のあるオブジェクトを見つけるように訓練する。
モーメントコントラスト(MoCo)エンコーダを,PreViTSを用いてVGG-SoundとKinetics-400データセットでトレーニングする。
論文 参考訳(メタデータ) (2021-12-01T19:49:57Z) - Off-policy Imitation Learning from Visual Inputs [83.22342811160114]
本稿では、政治以外の学習方法、データ拡張、エンコーダ技術からなるOPIfVIを提案する。
OPIfVIは、エキスパートレベルのパフォーマンスを実現し、既存のベースラインを上回ります。
論文 参考訳(メタデータ) (2021-11-08T09:06:12Z) - Auto-Rectify Network for Unsupervised Indoor Depth Estimation [119.82412041164372]
ハンドヘルド環境に現れる複雑な自我運動が,学習深度にとって重要な障害であることが確認された。
本稿では,相対回転を除去してトレーニング画像の修正を効果的に行うデータ前処理手法を提案する。
その結果、従来の教師なしSOTA法よりも、難易度の高いNYUv2データセットよりも優れていた。
論文 参考訳(メタデータ) (2020-06-04T08:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。