論文の概要: Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations
- arxiv url: http://arxiv.org/abs/2205.06333v1
- Date: Thu, 12 May 2022 19:48:11 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-16 12:19:08.917420
- Title: Visuomotor Control in Multi-Object Scenes Using Object-Aware
Representations
- Title(参考訳): オブジェクト認識表現を用いた多目的シーンの視覚運動制御
- Authors: Negin Heravi, Ayzaan Wahid, Corey Lynch, Pete Florence, Travis
Armstrong, Jonathan Tompson, Pierre Sermanet, Jeannette Bohg, Debidatta
Dwibedi
- Abstract要約: ロボット作業におけるオブジェクト指向表現学習の有効性を示す。
本モデルは,サンプル効率のよい制御ポリシーを学習し,最先端のオブジェクト技術より優れている。
- 参考スコア(独自算出の注目度): 25.33452947179541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Perceptual understanding of the scene and the relationship between its
different components is important for successful completion of robotic tasks.
Representation learning has been shown to be a powerful technique for this, but
most of the current methodologies learn task specific representations that do
not necessarily transfer well to other tasks. Furthermore, representations
learned by supervised methods require large labeled datasets for each task that
are expensive to collect in the real world. Using self-supervised learning to
obtain representations from unlabeled data can mitigate this problem. However,
current self-supervised representation learning methods are mostly object
agnostic, and we demonstrate that the resulting representations are
insufficient for general purpose robotics tasks as they fail to capture the
complexity of scenes with many components. In this paper, we explore the
effectiveness of using object-aware representation learning techniques for
robotic tasks. Our self-supervised representations are learned by observing the
agent freely interacting with different parts of the environment and is queried
in two different settings: (i) policy learning and (ii) object location
prediction. We show that our model learns control policies in a
sample-efficient manner and outperforms state-of-the-art object agnostic
techniques as well as methods trained on raw RGB images. Our results show a 20
percent increase in performance in low data regimes (1000 trajectories) in
policy training using implicit behavioral cloning (IBC). Furthermore, our
method outperforms the baselines for the task of object localization in
multi-object scenes.
- Abstract(参考訳): ロボット作業の完了には,シーンの知覚的理解と異なるコンポーネント間の関係が重要である。
表現学習は、このために強力なテクニックであることが示されているが、現在の方法論のほとんどは、必ずしも他のタスクにうまく移行しないタスク固有の表現を学ぶ。
さらに、教師付き手法で学習した表現は、現実世界で収集するのに高価なタスクごとに大きなラベル付きデータセットを必要とする。
ラベルのないデータから表現を得るために自己教師付き学習を使用することで、この問題を軽減できる。
しかし,現状の自己教師型表現学習法は対象非依存であり,多くのコンポーネントを持つシーンの複雑さを捉えるのに失敗するため,汎用ロボティクスタスクでは表現が不十分であることを示す。
本稿では,ロボット作業におけるオブジェクト指向表現学習の有効性について検討する。
我々の自己監督表現は、エージェントが環境の異なる部分と自由に相互作用するのを観察して学習し、2つの異なる設定でクエリされる。
(i)政策学習及び
(ii)オブジェクトの位置予測。
提案モデルでは,サンプル効率のよい制御ポリシを学習し,最先端のオブジェクト非依存技術や生のRGB画像で訓練された手法よりも優れていることを示す。
その結果、暗黙的行動クローニング(IBC)を用いた政策訓練において、低データ体制(1000トラジェクトリ)のパフォーマンスは20%向上した。
さらに,本手法は,多目的シーンにおけるオブジェクトローカライゼーションタスクのベースラインよりも優れる。
関連論文リスト
- Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - What Makes Pre-Trained Visual Representations Successful for Robust
Manipulation? [57.92924256181857]
照明やシーンテクスチャの微妙な変化の下では,操作や制御作業のために設計された視覚表現が必ずしも一般化されないことがわかった。
創発的セグメンテーション能力は,ViTモデルにおける分布外一般化の強い予測因子であることがわかった。
論文 参考訳(メタデータ) (2023-11-03T18:09:08Z) - Localizing Active Objects from Egocentric Vision with Symbolic World
Knowledge [62.981429762309226]
タスクの指示をエゴセントリックな視点から積極的に下す能力は、AIエージェントがタスクを達成したり、人間をバーチャルに支援する上で不可欠である。
本稿では,現在進行中のオブジェクトの役割を学習し,指示から正確に抽出することで,アクティブなオブジェクトをローカライズするフレーズグラウンドモデルの性能を向上させることを提案する。
Ego4DおよびEpic-Kitchensデータセットに関するフレームワークの評価を行った。
論文 参考訳(メタデータ) (2023-10-23T16:14:05Z) - Learning Sim-to-Real Dense Object Descriptors for Robotic Manipulation [4.7246285569677315]
我々はSim-to-Real Dense Object Nets(SRDONs)という,オブジェクトを適切な表現で理解するだけでなく,シミュレートされた実データをピクセル整合性を持った統一された特徴空間にマップする,高密度オブジェクト記述子を提案する。
本研究では,事前学習したSRDONが実世界の訓練をゼロにした各種ロボット作業において,見えない物体や見えない視覚環境の性能を著しく向上させる実験を行った。
論文 参考訳(メタデータ) (2023-04-18T02:28:55Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z) - Lifelong Ensemble Learning based on Multiple Representations for
Few-Shot Object Recognition [6.282068591820947]
本稿では,複数表現に基づく一生涯のアンサンブル学習手法を提案する。
生涯学習を容易にするため、各アプローチは、オブジェクト情報を即座に保存して検索するメモリユニットを備える。
提案手法の有効性を,オフラインおよびオープンエンドシナリオで評価するために,幅広い実験を行った。
論文 参考訳(メタデータ) (2022-05-04T10:29:10Z) - Task-Induced Representation Learning [14.095897879222672]
視覚的に複雑な環境における意思決定における表現学習手法の有効性を評価する。
表現学習は、視覚的に複雑なシーンであっても、目に見えないタスクのサンプル効率を向上する。
論文 参考訳(メタデータ) (2022-04-25T17:57:10Z) - Learning Sensorimotor Primitives of Sequential Manipulation Tasks from
Visual Demonstrations [13.864448233719598]
本稿では,低レベルポリシーと高レベルポリシーを同時に学習するニューラルネットワークベースの新しいフレームワークについて述べる。
提案手法の重要な特徴は、これらのポリシーがタスクデモの生のビデオから直接学習されることである。
ロボットアームを用いた物体操作タスクの実証実験の結果,提案するネットワークは実際の視覚的な実演から効率よく学習し,タスクを実行することができることがわかった。
論文 参考訳(メタデータ) (2022-03-08T01:36:48Z) - Factors of Influence for Transfer Learning across Diverse Appearance
Domains and Task Types [50.1843146606122]
現在の最新のコンピュータビジョンモデルでは、簡単な転送学習が一般的です。
転校学習に関するこれまでの体系的な研究は限られており、作業が期待される状況は十分に理解されていない。
本論文では,非常に異なる画像領域にまたがる転送学習の広範な実験的研究を行う。
論文 参考訳(メタデータ) (2021-03-24T16:24:20Z) - Reinforcement Learning with Prototypical Representations [114.35801511501639]
Proto-RLは、プロトタイプ表現を通じて表現学習と探索を結び付ける自己監督型フレームワークである。
これらのプロトタイプは、エージェントの探索経験の要約と同時に、観察を表す基盤としても機能する。
これにより、困難な連続制御タスクのセットで最新の下流ポリシー学習が可能になります。
論文 参考訳(メタデータ) (2021-02-22T18:56:34Z) - Visual Imitation Made Easy [102.36509665008732]
本稿では,ロボットへのデータ転送を容易にしながら,データ収集プロセスを単純化する,模倣のための代替インターフェースを提案する。
我々は、データ収集装置やロボットのエンドエフェクターとして、市販のリーチ・グラブラー補助具を使用する。
我々は,非包括的プッシュと包括的積み重ねという2つの課題について実験的に評価した。
論文 参考訳(メタデータ) (2020-08-11T17:58:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。