論文の概要: PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models
- arxiv url: http://arxiv.org/abs/2402.16836v1
- Date: Mon, 26 Feb 2024 18:57:52 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-28 19:33:45.359778
- Title: PhyGrasp: Generalizing Robotic Grasping with Physics-informed Large
Multimodal Models
- Title(参考訳): PhyGrasp:物理インフォームド大規模マルチモーダルモデルによるロボットグラスピングの一般化
- Authors: Dingkun Guo, Yuqi Xiang, Shuqi Zhao, Xinghao Zhu, Masayoshi Tomizuka,
Mingyu Ding, Wei Zhan
- Abstract要約: 人間は、自分の直感的な物理学を巧みに把握し、これまで見たことのない物体であっても、効率的に把握を変更できる。
この研究は、そのような物理的常識的推論をロボット操作に注入することに注力している。
自然言語と3次元点雲の2つのモードからの入力を利用するマルチモーダル大モデルであるPhyGraspを紹介する。
- 参考スコア(独自算出の注目度): 58.33913881592706
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Robotic grasping is a fundamental aspect of robot functionality, defining how
robots interact with objects. Despite substantial progress, its
generalizability to counter-intuitive or long-tailed scenarios, such as objects
with uncommon materials or shapes, remains a challenge. In contrast, humans can
easily apply their intuitive physics to grasp skillfully and change grasps
efficiently, even for objects they have never seen before.
This work delves into infusing such physical commonsense reasoning into
robotic manipulation. We introduce PhyGrasp, a multimodal large model that
leverages inputs from two modalities: natural language and 3D point clouds,
seamlessly integrated through a bridge module. The language modality exhibits
robust reasoning capabilities concerning the impacts of diverse physical
properties on grasping, while the 3D modality comprehends object shapes and
parts. With these two capabilities, PhyGrasp is able to accurately assess the
physical properties of object parts and determine optimal grasping poses.
Additionally, the model's language comprehension enables human instruction
interpretation, generating grasping poses that align with human preferences. To
train PhyGrasp, we construct a dataset PhyPartNet with 195K object instances
with varying physical properties and human preferences, alongside their
corresponding language descriptions. Extensive experiments conducted in the
simulation and on the real robots demonstrate that PhyGrasp achieves
state-of-the-art performance, particularly in long-tailed cases, e.g., about
10% improvement in success rate over GraspNet. Project page:
https://sites.google.com/view/phygrasp
- Abstract(参考訳): ロボットの把握は、ロボットがオブジェクトとどのように相互作用するかを定義するロボット機能の基本的側面である。
実質的な進歩にもかかわらず、非一般的な材料や形状を持つ物体のような直観的あるいは長いシナリオに対する一般化は依然として課題である。
対照的に、人間は直感的な物理学を巧みに把握し、これまで見たことのない物体でも効率的に把握を変えることができる。
この研究は、そのような物理的常識的推論をロボット操作に注入する。
自然言語と3dポイントクラウドという2つのモダリティから入力を活用し,ブリッジモジュールを通じてシームレスに統合したマルチモーダル大規模モデルであるphygraspを紹介する。
言語モダリティは、様々な物理的特性が把握に与える影響に関する堅牢な推論能力を示し、3Dモダリティはオブジェクトの形状や部分を理解する。
これらの2つの能力により、PhyGraspはオブジェクトの物理的特性を正確に評価し、最適な把握ポーズを決定することができる。
さらに、モデルの言語理解は、人間の指示解釈を可能にし、人間の好みに合致した把握ポーズを生成する。
phygraspをトレーニングするために、異なる物理特性と人間の好みを持つ195kのオブジェクトインスタンスを持つデータセット phypartnet を構築し、対応する言語記述と併用する。
シミュレーションと実際のロボットで実施された大規模な実験は、PhyGraspが最先端のパフォーマンスを達成することを実証している。
プロジェクトページ: https://sites.google.com/view/phygrasp
関連論文リスト
- DiffuseBot: Breeding Soft Robots With Physics-Augmented Generative
Diffusion Models [102.13968267347553]
本稿では,様々なタスクにおいて優れたソフトロボット形態を生成する物理拡張拡散モデルであるDiffuseBotを提案する。
我々は、その能力とともに、シミュレーションされた、そして製造された様々なロボットを紹介します。
論文 参考訳(メタデータ) (2023-11-28T18:58:48Z) - Anthropomorphic Grasping with Neural Object Shape Completion [20.952799332420195]
人間は、オブジェクトを扱うときに異常な器用さを示します。
手の姿勢は、把握すべき対象に対する特定の領域の影響を一般的に示している。
本研究では、部分的な観察から全幾何学を再構築し、完成させることにより、人間のような物体の理解を活用する。
論文 参考訳(メタデータ) (2023-11-04T21:05:26Z) - Physically Grounded Vision-Language Models for Robotic Manipulation [59.143640049407104]
39.6Kのクラウドソースと417Kの自動物理概念アノテーションからなるオブジェクト中心のデータセットであるPhysObjectsを提案する。
本稿では,PhysObjects上での視覚言語モデルの微調整により,物理オブジェクト概念の理解が向上することを示す。
我々は、この物理的基盤を持つVLMを、大規模言語モデルに基づくロボットプランナーと対話的なフレームワークに組み込む。
論文 参考訳(メタデータ) (2023-09-05T20:21:03Z) - VoxPoser: Composable 3D Value Maps for Robotic Manipulation with
Language Models [38.503337052122234]
大規模言語モデル(LLM)は、ロボット操作のために抽出できる豊富な行動可能な知識を持っていることが示されている。
我々は,オープンな命令セットとオープンなオブジェクトセットが与えられた様々な操作タスクに対して,ロボット軌道を合成することを目指している。
筆者らは,接触に富んだインタラクションを含むシーンのダイナミックスモデルを効率的に学習することで,提案フレームワークがオンライン体験の恩恵を享受できることを実証する。
論文 参考訳(メタデータ) (2023-07-12T07:40:48Z) - Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding [42.04502185508723]
本稿では,3次元部分レベルの可読性と把握能力学習を促進するために,言語誘導型SHape grAsPingデータを提案する。
ロボット認知の観点から、我々は2段階のきめ細かいロボット把握フレームワーク(LangPartGPD)を設計する。
我々の手法は、人間とロボットの協調と大規模言語モデル(LLM)の利点を組み合わせたものである。
提案手法は,3次元形状のきめ細かな接地,オブジェクトの空き度推定,および3次元部分認識把握タスクにおいて,競争性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-27T07:00:54Z) - LaTTe: Language Trajectory TransformEr [33.7939079214046]
本研究は、汎用的な3次元ロボット軌道を修正するための柔軟な言語ベースのフレームワークを提案する。
自然言語入力と文脈イメージを3次元軌跡の変化にマッピングするために,自動回帰変換器を用いる。
シミュレーションや実生活実験を通じて、モデルが人間の意図に従うことができることを示す。
論文 参考訳(メタデータ) (2022-08-04T22:43:21Z) - Dynamic Visual Reasoning by Learning Differentiable Physics Models from
Video and Language [92.7638697243969]
視覚概念を協調的に学習し,映像や言語から物体の物理モデルを推定する統合フレームワークを提案する。
これは視覚認識モジュール、概念学習モジュール、微分可能な物理エンジンの3つのコンポーネントをシームレスに統合することで実現される。
論文 参考訳(メタデータ) (2021-10-28T17:59:13Z) - INVIGORATE: Interactive Visual Grounding and Grasping in Clutter [56.00554240240515]
INVIGORATEは、自然言語で人間と対話し、特定の物体をクラッタで把握するロボットシステムである。
我々は、物体検出、視覚的接地、質問生成、OBR検出と把握のために、別々のニューラルネットワークを訓練する。
我々は、学習したニューラルネットワークモジュールを統合する、部分的に観測可能なマルコフ決定プロセス(POMDP)を構築します。
論文 参考訳(メタデータ) (2021-08-25T07:35:21Z) - Language Grounding with 3D Objects [60.67796160959387]
本稿では,3Dオブジェクトに関する視覚的・非視覚的言語を対象とする新たな推論タスクを提案する。
オブジェクトを識別するためのCLIPベースのモデルをいくつか紹介する。
言語接地モデルにビュー推定を追加することで、SNAREとロボットプラットフォーム上で言語で参照されるオブジェクトを識別する場合の精度が向上することがわかった。
論文 参考訳(メタデータ) (2021-07-26T23:35:58Z) - Physion: Evaluating Physical Prediction from Vision in Humans and
Machines [46.19008633309041]
我々は、この能力を正確に測定する視覚的および身体的予測ベンチマークを示す。
我々は、様々な物理予測を行う能力について、アルゴリズムの配列を比較した。
物理的な状態にアクセス可能なグラフニューラルネットワークは、人間の振る舞いを最もよく捉えている。
論文 参考訳(メタデータ) (2021-06-15T16:13:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。