論文の概要: SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained
Networks
- arxiv url: http://arxiv.org/abs/2307.03567v2
- Date: Sun, 22 Oct 2023 03:16:41 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-25 08:21:43.661065
- Title: SpawnNet: Learning Generalizable Visuomotor Skills from Pre-trained
Networks
- Title(参考訳): SpawnNet: トレーニング済みネットワークから汎用的なVisuomotorスキルを学ぶ
- Authors: Xingyu Lin, John So, Sashwat Mahalingam, Fangchen Liu, Pieter Abbeel
- Abstract要約: 本稿では,事前学習した視覚表現のカテゴリレベルでの一般化能力について検討する。
本研究では,事前学習した多層表現を独立したネットワークに融合させて,ロバストなポリシーを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
- 参考スコア(独自算出の注目度): 52.766795949716986
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The existing internet-scale image and video datasets cover a wide range of
everyday objects and tasks, bringing the potential of learning policies that
generalize in diverse scenarios. Prior works have explored visual pre-training
with different self-supervised objectives. Still, the generalization
capabilities of the learned policies and the advantages over well-tuned
baselines remain unclear from prior studies. In this work, we present a focused
study of the generalization capabilities of the pre-trained visual
representations at the categorical level. We identify the key bottleneck in
using a frozen pre-trained visual backbone for policy learning and then propose
SpawnNet, a novel two-stream architecture that learns to fuse pre-trained
multi-layer representations into a separate network to learn a robust policy.
Through extensive simulated and real experiments, we show significantly better
categorical generalization compared to prior approaches in imitation learning
settings. Open-sourced code and videos can be found on our website:
https://xingyu-lin.github.io/spawnnet.
- Abstract(参考訳): 既存のインターネット規模の画像とビデオデータセットは、さまざまなシナリオで一般化する学習ポリシーの可能性をもたらし、さまざまな日常オブジェクトやタスクをカバーしている。
先行研究は、異なる自己監督目的による視覚的事前学習を探求している。
それでも、学習方針の一般化能力と、十分に調整されたベースラインに対する利点は、以前の研究から明らかでない。
本稿では,事前学習された視覚表現のカテゴリレベルでの一般化能力について検討する。
フリーズされた視覚的バックボーンをポリシー学習に使用する上で重要なボトルネックを特定し,その上で,事前学習された多層表現を独立したネットワークに融合してロバストなポリシを学習する,新しい2ストリームアーキテクチャSpawnNetを提案する。
シミュレーションおよび実演実験により,模倣学習環境における先行手法と比較して,カテゴリー一般化が有意に良好であることを示す。
オープンソースコードとビデオは、私たちのWebサイト(https://xingyu-lin.github.io/spawnnet.com)にある。
関連論文リスト
- Vision-Language Models Provide Promptable Representations for Reinforcement Learning [67.40524195671479]
視覚言語モデル(VLM)に符号化された多量の一般知識と索引可能な世界知識をインターネット規模で事前学習して具体的強化学習(RL)を行う新しい手法を提案する。
提案手法では,共通意味的推論の表現にチェーン・オブ・シントを用いることで,新規シーンのポリシー性能を1.5倍向上できることを示す。
論文 参考訳(メタデータ) (2024-02-05T00:48:56Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Diffused Redundancy in Pre-trained Representations [98.55546694886819]
事前訓練された表現で機能がどのようにコード化されているか、より詳しく見ていきます。
与えられた層における学習された表現は拡散冗長性を示す。
我々の発見は、事前訓練されたディープニューラルネットワークによって学習された表現の性質に光を当てた。
論文 参考訳(メタデータ) (2023-05-31T21:00:50Z) - A Shapelet-based Framework for Unsupervised Multivariate Time Series Representation Learning [29.511632089649552]
時系列固有のシェープレットに基づく表現を学習し,多変量時系列のための新しいURLフレームワークを提案する。
我々の知る限りでは、これは、教師なし汎用表現学習におけるシェープレットベースの埋め込みを探求する最初の研究である。
統一型シェープレットベースのエンコーダと,マルチグレードコントラストとマルチスケールアライメントを備えた新しい学習目標が,目的達成のために特に設計されている。
論文 参考訳(メタデータ) (2023-05-30T09:31:57Z) - CoDo: Contrastive Learning with Downstream Background Invariance for
Detection [10.608660802917214]
下流背景不変性(CoDo)を用いたコントラスト学習という,オブジェクトレベルの自己教師型学習手法を提案する。
プリテキストタスクは、さまざまなバックグラウンド、特に下流データセットのインスタンス位置モデリングに集中するように変換される。
MSCOCOの実験では、共通のバックボーンを持つCoDoであるResNet50-FPNが、オブジェクト検出に強力な転送学習結果をもたらすことを示した。
論文 参考訳(メタデータ) (2022-05-10T01:26:15Z) - The Unsurprising Effectiveness of Pre-Trained Vision Models for Control [33.30717429522186]
本研究では、制御のための事前学習された視覚表現の役割、特に大規模コンピュータビジョンデータセットで訓練された視覚表現について検討する。
事前学習された視覚表現は、制御ポリシーを訓練する上で、地道な状態表現よりも競争力があるか、さらに優れていることが分かりました。
論文 参考訳(メタデータ) (2022-03-07T18:26:14Z) - Self-supervised Audiovisual Representation Learning for Remote Sensing Data [96.23611272637943]
遠隔センシングにおける深層ニューラルネットワークの事前学習のための自己教師型アプローチを提案する。
ジオタグ付きオーディオ記録とリモートセンシングの対応を利用して、これは完全にラベルなしの方法で行われる。
提案手法は,既存のリモートセンシング画像の事前学習方法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-08-02T07:50:50Z) - Reasoning-Modulated Representations [85.08205744191078]
タスクが純粋に不透明でないような共通的な環境について研究する。
我々のアプローチは、新しいデータ効率表現学習の道を開く。
論文 参考訳(メタデータ) (2021-07-19T13:57:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。