論文の概要: PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2309.15596v1
- Date: Wed, 27 Sep 2023 11:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 13:52:42.724602
- Title: PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation
- Title(参考訳): PolarNet: 言語誘導型ロボットマニピュレーションのための3Dポイントクラウド
- Authors: Shizhe Chen, Ricardo Garcia, Cordelia Schmid, Ivan Laptev
- Abstract要約: PolarNetは、言語誘導操作のための3Dポイントクラウドベースのポリシーである。
3Dポイントクラウド表現を学習し、アクション予測のための言語命令と統合する。
シングルタスクとマルチタスクの学習において、最先端の2Dおよび3Dアプローチより優れている。
- 参考スコア(独自算出の注目度): 93.46306666726969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability for robots to comprehend and execute manipulation tasks based on
natural language instructions is a long-term goal in robotics. The dominant
approaches for language-guided manipulation use 2D image representations, which
face difficulties in combining multi-view cameras and inferring precise 3D
positions and relationships. To address these limitations, we propose a 3D
point cloud based policy called PolarNet for language-guided manipulation. It
leverages carefully designed point cloud inputs, efficient point cloud
encoders, and multimodal transformers to learn 3D point cloud representations
and integrate them with language instructions for action prediction. PolarNet
is shown to be effective and data efficient in a variety of experiments
conducted on the RLBench benchmark. It outperforms state-of-the-art 2D and 3D
approaches in both single-task and multi-task learning. It also achieves
promising results on a real robot.
- Abstract(参考訳): 自然言語に基づく操作タスクをロボットが理解し、実行する能力は、ロボット工学の長期的な目標である。
言語誘導操作の主流となるアプローチは、多視点カメラの組み合わせと正確な3D位置と関係の推測に困難に直面している2D画像表現を用いる。
これらの制約に対処するため,言語誘導操作のためのPolarNetと呼ばれる3Dポイントクラウドベースのポリシーを提案する。
慎重に設計されたポイントクラウド入力、効率的なポイントクラウドエンコーダ、マルチモーダルトランスフォーマーを利用して、3Dポイントクラウド表現を学び、アクション予測のための言語命令と統合する。
polarnetはrlbenchベンチマークで実施された様々な実験で効率的で効率的なことが示されている。
シングルタスクとマルチタスクの学習において、最先端の2Dおよび3Dアプローチより優れている。
また、実際のロボットで有望な結果が得られる。
関連論文リスト
- 3D-MVP: 3D Multiview Pretraining for Robotic Manipulation [53.45111493465405]
マスク付きオートエンコーダを用いた3次元マルチビュー事前学習のための新しいアプローチである3D-MVPを提案する。
我々は,多視点トランスを用いたロボットビュートランス(RVT)を利用して3Dシーンを理解し,ポーズ動作を予測する。
最小限の微調整を施した実際のロボットプラットフォームで有望な結果を示す。
論文 参考訳(メタデータ) (2024-06-26T08:17:59Z) - Transcrib3D: 3D Referring Expression Resolution through Large Language Models [28.121606686759225]
本稿では,3次元検出手法と大規模言語モデルの創発的推論機能を組み合わせたアプローチであるTranscrib3Dを紹介する。
Transcrib3Dは3D参照解像度ベンチマークで最先端の結果を得る。
提案手法は,提案手法を用いて,参照表現の難易度を含むクエリに対して,実際のロボットがピック・アンド・プレイス・タスクを実行できることを示す。
論文 参考訳(メタデータ) (2024-04-30T02:48:20Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [63.39876878899682]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance Grounding [42.04502185508723]
本稿では,3次元部分レベルの可読性と把握能力学習を促進するために,言語誘導型SHape grAsPingデータを提案する。
ロボット認知の観点から、我々は2段階のきめ細かいロボット把握フレームワーク(LangPartGPD)を設計する。
我々の手法は、人間とロボットの協調と大規模言語モデル(LLM)の利点を組み合わせたものである。
提案手法は,3次元形状のきめ細かな接地,オブジェクトの空き度推定,および3次元部分認識把握タスクにおいて,競争性能を達成できることを示す。
論文 参考訳(メタデータ) (2023-01-27T07:00:54Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z) - Unsupervised Learning of Fine Structure Generation for 3D Point Clouds
by 2D Projection Matching [66.98712589559028]
微細な構造を持つ3次元点雲生成のための教師なしアプローチを提案する。
本手法は2次元シルエット画像から異なる解像度で微細な3次元構造を復元することができる。
論文 参考訳(メタデータ) (2021-08-08T22:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。