論文の概要: Disentangled Object-Centric Image Representation for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2503.11565v1
- Date: Fri, 14 Mar 2025 16:33:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-17 13:05:56.124677
- Title: Disentangled Object-Centric Image Representation for Robotic Manipulation
- Title(参考訳): ロボットマニピュレーションのための遠方形物体中心画像表現
- Authors: David Emukpere, Romain Deffayet, Bingbing Wu, Romain Brégier, Michael Niemaz, Jean-Luc Meunier, Denys Proux, Jean-Michel Renders, Seungsu Kim,
- Abstract要約: 本研究では,対象物,障害物,ロボットの体現物に対する不整合表現を導入したオブジェクト中心のフレームワークであるDOCIRを提案する。
提案手法は,多目的環境における視覚的インプットから選択と配置のスキルを習得する上で,最先端のパフォーマンスに繋がることを示す。
- 参考スコア(独自算出の注目度): 6.775909411692767
- License:
- Abstract: Learning robotic manipulation skills from vision is a promising approach for developing robotics applications that can generalize broadly to real-world scenarios. As such, many approaches to enable this vision have been explored with fruitful results. Particularly, object-centric representation methods have been shown to provide better inductive biases for skill learning, leading to improved performance and generalization. Nonetheless, we show that object-centric methods can struggle to learn simple manipulation skills in multi-object environments. Thus, we propose DOCIR, an object-centric framework that introduces a disentangled representation for objects of interest, obstacles, and robot embodiment. We show that this approach leads to state-of-the-art performance for learning pick and place skills from visual inputs in multi-object environments and generalizes at test time to changing objects of interest and distractors in the scene. Furthermore, we show its efficacy both in simulation and zero-shot transfer to the real world.
- Abstract(参考訳): ビジョンからロボット操作スキルを学ぶことは、現実のシナリオに広く応用できるロボットアプリケーションを開発する上で、有望なアプローチである。
このように、このビジョンを実現するための多くのアプローチが実りある結果によって探索されてきた。
特に、オブジェクト指向表現法は、スキル学習に優れた帰納バイアスをもたらすことが示され、性能と一般化が向上した。
にもかかわらず、オブジェクト中心の手法は、多目的環境で単純な操作スキルを学ぶのに苦労することを示す。
そこで本研究では,関心対象,障害物対象,ロボットの体現物に対する不整合表現を導入したオブジェクト中心のフレームワークであるDOCIRを提案する。
このアプローチは,多目的環境における視覚的入力からスキルを習得・配置する上での最先端のパフォーマンスにつながり,テスト時の一般化により,シーンにおける関心や気晴らしの物体の変化につながることを示す。
さらに,実世界へのシミュレーションとゼロショット転送の両面での有効性を示す。
関連論文リスト
- Efficient Object-centric Representation Learning with Pre-trained Geometric Prior [1.9685736810241874]
本稿では、幾何学的理解を重視し、事前学習された視覚モデルを利用して物体発見を促進する弱教師付きフレームワークを提案する。
本手法では,オブジェクト中心学習に特化して設計された効率的なスロットデコーダを導入し,露骨な深度情報を必要としない多目的シーンの効率的な表現を可能にする。
論文 参考訳(メタデータ) (2024-12-16T20:01:35Z) - Zero-Shot Object-Centric Representation Learning [72.43369950684057]
ゼロショット一般化のレンズによる現在の対象中心法について検討する。
8つの異なる合成および実世界のデータセットからなるベンチマークを導入する。
多様な実世界の画像のトレーニングにより、見えないシナリオへの転送性が向上することがわかった。
論文 参考訳(メタデータ) (2024-08-17T10:37:07Z) - Self-Explainable Affordance Learning with Embodied Caption [63.88435741872204]
具体的キャプションを具現化したSelf-Explainable Affordance Learning (SEA)を紹介する。
SEAは、ロボットが意図を明確に表現し、説明可能な視覚言語キャプションと視覚能力学習のギャップを埋めることを可能にする。
本稿では, 簡便かつ効率的な方法で, 空き地と自己説明を効果的に組み合わせた新しいモデルを提案する。
論文 参考訳(メタデータ) (2024-04-08T15:22:38Z) - Graphical Object-Centric Actor-Critic [55.2480439325792]
本稿では,アクター批判とモデルに基づくアプローチを組み合わせたオブジェクト中心強化学習アルゴリズムを提案する。
変換器エンコーダを用いてオブジェクト表現とグラフニューラルネットワークを抽出し、環境のダイナミクスを近似する。
本アルゴリズムは,現状のモデルフリーアクター批判アルゴリズムよりも複雑な3次元ロボット環境と構成構造をもつ2次元環境において,より優れた性能を発揮する。
論文 参考訳(メタデータ) (2023-10-26T06:05:12Z) - Human-oriented Representation Learning for Robotic Manipulation [64.59499047836637]
人間は本質的に、操作作業において環境を効率的に探索し、相互作用することを可能にする、一般化可能な視覚表現を持っている。
我々は、このアイデアを、事前訓練された視覚エンコーダの上に、人間指向のマルチタスク微調整のレンズを通してフォーマル化する。
我々のタスクフュージョンデコーダは、下流操作ポリシー学習のための最先端の3つのビジュアルエンコーダの表現を一貫して改善する。
論文 参考訳(メタデータ) (2023-10-04T17:59:38Z) - Robust and Controllable Object-Centric Learning through Energy-based
Models [95.68748828339059]
我々の研究は概念的にシンプルで一般的なアプローチであり、エネルギーベースモデルを通してオブジェクト中心の表現を学習する。
既存のアーキテクチャに容易に統合でき、高品質なオブジェクト中心表現を効果的に抽出できることを示す。
論文 参考訳(メタデータ) (2022-10-11T15:11:15Z) - Self-Supervised Learning of Multi-Object Keypoints for Robotic
Manipulation [8.939008609565368]
本稿では,下流政策学習におけるDense Cor correspondence pretext Taskによる画像キーポイントの学習の有効性を示す。
我々は,多様なロボット操作タスクに対するアプローチを評価し,他の視覚表現学習手法と比較し,その柔軟性と有効性を示した。
論文 参考訳(メタデータ) (2022-05-17T13:15:07Z) - ManiSkill: Learning-from-Demonstrations Benchmark for Generalizable
Manipulation Skills [27.214053107733186]
汎用オブジェクト操作スキルを学習するためのSAPIENマニピュレーションスキルベンチマーク(ManiSkill)を提案する。
ManiSkillは、リッチで多様な調音されたオブジェクトセットを利用することで、オブジェクトレベルのバリエーションをサポートする。
ManiSkillは、ロボットの学習コミュニティに、汎用的なオブジェクト操作スキルの学習を奨励する。
論文 参考訳(メタデータ) (2021-07-30T08:20:22Z) - Unadversarial Examples: Designing Objects for Robust Vision [100.4627585672469]
現代の機械学習アルゴリズムの感度を入力摂動に活かし、「ロバストオブジェクト」を設計するフレームワークを開発しています。
標準ベンチマークから(シミュレーション中)ロボット工学まで,さまざまな視覚ベースのタスクに対するフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2020-12-22T18:26:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。