論文の概要: Learning to See before Learning to Act: Visual Pre-training for
Manipulation
- arxiv url: http://arxiv.org/abs/2107.00646v1
- Date: Thu, 1 Jul 2021 17:58:37 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-02 13:34:50.916073
- Title: Learning to See before Learning to Act: Visual Pre-training for
Manipulation
- Title(参考訳): 行動する前を見ること:操作のための視覚的事前学習
- Authors: Lin Yen-Chen, Andy Zeng, Shuran Song, Phillip Isola, Tsung-Yi Lin
- Abstract要約: 視覚タスクの事前学習は、物体を操作するための学習の一般化とサンプル効率を大幅に向上させる。
本稿では,モデルパラメータを視覚ネットワークからアベイランス予測ネットワークへ直接転送することで,ゼロショット適応が成功することを示す。
ほんの少しのロボット経験があれば、より優れた結果を得るために、余分なモデルをさらに微調整できる。
- 参考スコア(独自算出の注目度): 48.731528716324355
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Does having visual priors (e.g. the ability to detect objects) facilitate
learning to perform vision-based manipulation (e.g. picking up objects)? We
study this problem under the framework of transfer learning, where the model is
first trained on a passive vision task, and adapted to perform an active
manipulation task. We find that pre-training on vision tasks significantly
improves generalization and sample efficiency for learning to manipulate
objects. However, realizing these gains requires careful selection of which
parts of the model to transfer. Our key insight is that outputs of standard
vision models highly correlate with affordance maps commonly used in
manipulation. Therefore, we explore directly transferring model parameters from
vision networks to affordance prediction networks, and show that this can
result in successful zero-shot adaptation, where a robot can pick up certain
objects with zero robotic experience. With just a small amount of robotic
experience, we can further fine-tune the affordance model to achieve better
results. With just 10 minutes of suction experience or 1 hour of grasping
experience, our method achieves ~80% success rate at picking up novel objects.
- Abstract(参考訳): 視覚的な優先事項(例えば
物体を検知する能力)は視覚ベースの操作(例えば)の学習を容易にする。
物を拾う?
そこで本研究では,まず受動的視覚タスクでモデルを訓練し,アクティブな操作タスクを行うように適応したトランスファー学習の枠組みでこの問題を考察する。
視覚タスクの事前学習は、オブジェクトを操作するための学習の一般化とサンプル効率を大幅に改善する。
しかし、これらの利益を実現するには、モデルのどの部分を転送するかを慎重に選択する必要がある。
私たちの重要な洞察は、標準的なビジョンモデルの出力は、操作によく使われるアフォーマンスマップと高い相関があるということです。
そこで,視覚ネットワークから空き予測ネットワークへのモデルパラメータの直接転送について検討し,ロボットがロボット体験をゼロにすることで,ゼロショット適応が成功することを示す。
ほんの少しのロボット経験があれば、より優れた結果を得るために余剰モデルを微調整できる。
提案手法は,10分間の吸引経験や1時間の把握経験により,新しい物体の拾い上げにおいて約80%の成功率を達成した。
関連論文リスト
- Latent Action Pretraining from Videos [156.88613023078778]
一般行動モデル(LAPA)のための潜在行動事前訓練について紹介する。
LAPA(英: LAPA)は、VLA(Vision-Language-Action)モデルに接地型ロボットアクションラベルを含まない教師なしの訓練方法である。
本稿では,ロボットアクションラベルを持たないインターネット規模のビデオから学習する手法を提案する。
論文 参考訳(メタデータ) (2024-10-15T16:28:09Z) - Theia: Distilling Diverse Vision Foundation Models for Robot Learning [6.709078873834651]
Theiaは、さまざまな視覚タスクで訓練された複数の市販の視覚基礎モデルを蒸留する、ロボット学習のためのビジョン基礎モデルである。
テアの豊かな視覚表現は多様な視覚知識をエンコードし、下流のロボット学習を強化する。
論文 参考訳(メタデータ) (2024-07-29T17:08:21Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Heuristic Vision Pre-Training with Self-Supervised and Supervised
Multi-Task Learning [0.0]
マルチタスク方式で自己教師型と教師型の両方の視覚的プレテキストタスクを採用することで、新しい事前学習フレームワークを提案する。
その結果、事前学習したモデルでは、複数の視覚的タスクにおいて、最先端(SOTA)結果と同等以上の結果が得られることがわかった。
論文 参考訳(メタデータ) (2023-10-11T14:06:04Z) - Exploring Visual Pre-training for Robot Manipulation: Datasets, Models
and Methods [14.780597545674157]
本稿では,3つの基本的視点から,視覚的事前学習がロボット操作作業に及ぼす影響について検討する。
自己教師型学習と教師型学習を組み合わせた視覚的事前学習方式Vi-PRoMを提案する。
論文 参考訳(メタデータ) (2023-08-07T14:24:52Z) - Learning Reward Functions for Robotic Manipulation by Observing Humans [92.30657414416527]
我々は、ロボット操作ポリシーのタスク非依存報酬関数を学習するために、幅広い操作タスクを解く人間のラベル付きビデオを使用する。
学習された報酬は、タイムコントラストの目的を用いて学習した埋め込み空間におけるゴールまでの距離に基づいている。
論文 参考訳(メタデータ) (2022-11-16T16:26:48Z) - Equivariant Descriptor Fields: SE(3)-Equivariant Energy-Based Models for
End-to-End Visual Robotic Manipulation Learning [2.8388425545775386]
我々は,ポイントクラウド入力からの視覚ロボット操作のための終端SE(3)-同変モデルを提案する。
我々のモデルは、事前の知識がなくてもゼロから学習できることを示します。
論文 参考訳(メタデータ) (2022-06-16T17:26:06Z) - What Can I Do Here? Learning New Skills by Imagining Visual Affordances [128.65223577406587]
提案手法は,ロボットが可利用性の視覚的表現を学習する上で,どのような結果が得られるかを示す。
実際、事前データは、ロボットが不慣れな状況に遭遇したとき、そのモデルから潜在的な結果をサンプリングするように、どのような結果が得られるかを学ぶのに使用される。
本稿では, VAL(visuomotor affordance learning)を用いて, 生画像入力で動作する目標条件付きポリシーの学習を行う。
論文 参考訳(メタデータ) (2021-06-01T17:58:02Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。