論文の概要: M2T2: Multi-Task Masked Transformer for Object-centric Pick and Place
- arxiv url: http://arxiv.org/abs/2311.00926v1
- Date: Thu, 2 Nov 2023 01:42:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-03 15:17:35.788077
- Title: M2T2: Multi-Task Masked Transformer for Object-centric Pick and Place
- Title(参考訳): m2t2:オブジェクト中心のピックアンドプレースのためのマルチタスクマスクトランス
- Authors: Wentao Yuan, Adithyavairavan Murali, Arsalan Mousavian, Dieter Fox
- Abstract要約: M2T2は、散らかったシーンの任意のオブジェクトに対して堅牢に動作する異なるタイプの低レベルのアクションを提供する単一のモデルである。
M2T2は、128Kシーンの大規模な合成データセットで訓練され、実際のロボット上でゼロショットのsim2real転送を実現する。
- 参考スコア(独自算出の注目度): 44.303123422422246
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advent of large language models and large-scale robotic datasets,
there has been tremendous progress in high-level decision-making for object
manipulation. These generic models are able to interpret complex tasks using
language commands, but they often have difficulties generalizing to
out-of-distribution objects due to the inability of low-level action
primitives. In contrast, existing task-specific models excel in low-level
manipulation of unknown objects, but only work for a single type of action. To
bridge this gap, we present M2T2, a single model that supplies different types
of low-level actions that work robustly on arbitrary objects in cluttered
scenes. M2T2 is a transformer model which reasons about contact points and
predicts valid gripper poses for different action modes given a raw point cloud
of the scene. Trained on a large-scale synthetic dataset with 128K scenes, M2T2
achieves zero-shot sim2real transfer on the real robot, outperforming the
baseline system with state-of-the-art task-specific models by about 19% in
overall performance and 37.5% in challenging scenes where the object needs to
be re-oriented for collision-free placement. M2T2 also achieves
state-of-the-art results on a subset of language conditioned tasks in RLBench.
Videos of robot experiments on unseen objects in both real world and simulation
are available on our project website https://m2-t2.github.io.
- Abstract(参考訳): 大規模言語モデルや大規模ロボットデータセットの出現により、オブジェクト操作のための高レベルの意思決定が大幅に進歩した。
これらのジェネリックモデルは言語コマンドを使って複雑なタスクを解釈できるが、低レベルのアクションプリミティブが使えないため、分散オブジェクトへの一般化が難しいことが多い。
対照的に、既存のタスク固有のモデルは未知のオブジェクトの低レベルな操作に優れているが、単一のタイプのアクションでのみ機能する。
このギャップを埋めるため、私たちはm2t2という異なる種類の低レベルアクションを提供する単一のモデルを提示しました。
M2T2は、接触点を推論し、シーンの生の点雲に与えられた異なるアクションモードに対する有効なグッパーのポーズを予測するトランスフォーマーモデルである。
128kシーンの大規模な合成データセットでトレーニングされたm2t2は、実ロボット上でゼロショットsim2実数転送を達成し、最先端タスク固有モデルで全体のパフォーマンスが約19%、衝突のない配置のためにオブジェクトが再指向する必要があるチャレンジシーンが37.5%向上した。
m2t2はまた、rlbenchの言語条件付きタスクのサブセットで最先端の結果を得る。
実世界とシミュレーションの両方におけるロボット実験の動画は、我々のプロジェクトwebサイトhttps://m2-t2.github.ioで閲覧できます。
関連論文リスト
- Details Make a Difference: Object State-Sensitive Neurorobotic Task Planning [15.03025428687218]
オブジェクトの状態は現在の状態や状態を反映しており、ロボットのタスク計画と操作にとって重要である。
近年,LLM (Large Language Models) とVLM (Vision-Language Models) は,計画生成において顕著な能力を示している。
我々は、事前学習ニューラルネットワークによって強化されたタスク計画エージェントであるObject State-Sensitive Agent (OSSA)を紹介する。
論文 参考訳(メタデータ) (2024-06-14T12:52:42Z) - Uncertainty-aware Active Learning of NeRF-based Object Models for Robot Manipulators using Visual and Re-orientation Actions [8.059133373836913]
本稿では,ロボットが対象物の完全な3次元モデルを高速に学習し,不慣れな方向で操作できるアプローチを提案する。
我々は、部分的に構築されたNeRFモデルのアンサンブルを用いて、モデルの不確実性を定量化し、次の動作を決定する。
提案手法は, 部分的NeRFモデルにより対象物をいつ, どのように把握し, 再指向するかを判断し, 相互作用中に導入された不整合を補正するために, 対象のポーズを再推定する。
論文 参考訳(メタデータ) (2024-04-02T10:15:06Z) - TaskCLIP: Extend Large Vision-Language Model for Task Oriented Object Detection [23.73648235283315]
タスク指向オブジェクト検出は、特定のタスクを達成するのに適したオブジェクトを見つけることを目的としている。
最近のソリューションは主にオールインワンモデルです。
汎用オブジェクト検出とタスク誘導オブジェクト選択からなるより自然な2段階設計であるTaskCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-12T22:33:02Z) - Interactive Planning Using Large Language Models for Partially
Observable Robotics Tasks [54.60571399091711]
大きな言語モデル(LLM)は、オープン語彙タスクを実行するロボットエージェントを作成することで、驚くべき成果を上げている。
LLMを用いた部分的に観測可能なタスクのための対話型計画手法を提案する。
論文 参考訳(メタデータ) (2023-12-11T22:54:44Z) - GAMMA: Generalizable Articulation Modeling and Manipulation for
Articulated Objects [53.965581080954905]
本稿では,GAMMA(Generalizable Articulation Modeling and Manipulating for Articulated Objects)の新たな枠組みを提案する。
GAMMAは,異なるカテゴリーの多種多様な調音オブジェクトから,調音モデルと手取りポーズの相違を学習する。
その結果, GAMMA はSOTA の調音モデルおよび操作アルゴリズムを, 目に見えない, 横断的な調音オブジェクトで著しく上回っていることがわかった。
論文 参考訳(メタデータ) (2023-09-28T08:57:14Z) - ROAM: Robust and Object-Aware Motion Generation Using Neural Pose
Descriptors [73.26004792375556]
本稿では,3次元オブジェクト認識キャラクタ合成における新しいシーンオブジェクトへのロバストさと一般化が,参照オブジェクトを1つも持たないモーションモデルをトレーニングすることで実現可能であることを示す。
我々は、オブジェクト専用のデータセットに基づいて訓練された暗黙的な特徴表現を活用し、オブジェクトの周りのSE(3)-同変記述体フィールドをエンコードする。
本研究では,3次元仮想キャラクタの動作と相互作用の質,および未知のオブジェクトを持つシナリオに対するロバスト性を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-08-24T17:59:51Z) - Transferring Foundation Models for Generalizable Robotic Manipulation [82.12754319808197]
インターネット規模の基盤モデルによって生成された言語推論セグメンテーションマスクを効果的に活用する新しいパラダイムを提案する。
提案手法は,オブジェクトのポーズを効果的かつ堅牢に知覚し,サンプル効率のよい一般化学習を可能にする。
デモは提出されたビデオで見ることができ、より包括的なデモはlink1またはlink2で見ることができます。
論文 参考訳(メタデータ) (2023-06-09T07:22:12Z) - ARMBench: An Object-centric Benchmark Dataset for Robotic Manipulation [9.551453254490125]
ARMBenchは、倉庫のコンテキストにおけるロボット操作のための大規模でオブジェクト中心のベンチマークデータセットである。
ロボットマニピュレータを用いて,Amazonの倉庫で収集した大規模データセットについて述べる。
論文 参考訳(メタデータ) (2023-03-29T01:42:54Z) - MetaGraspNet: A Large-Scale Benchmark Dataset for Vision-driven Robotic
Grasping via Physics-based Metaverse Synthesis [78.26022688167133]
本稿では,物理に基づくメタバース合成による視覚駆動型ロボットグルーピングのための大規模ベンチマークデータセットを提案する。
提案するデータセットには,10万の画像と25種類のオブジェクトが含まれている。
また,オブジェクト検出とセグメンテーション性能を評価するためのデータセットとともに,新しいレイアウト重み付け性能指標を提案する。
論文 参考訳(メタデータ) (2021-12-29T17:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。