論文の概要: PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2309.15596v1
- Date: Wed, 27 Sep 2023 11:50:43 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-28 13:52:42.724602
- Title: PolarNet: 3D Point Clouds for Language-Guided Robotic Manipulation
- Title(参考訳): PolarNet: 言語誘導型ロボットマニピュレーションのための3Dポイントクラウド
- Authors: Shizhe Chen, Ricardo Garcia, Cordelia Schmid, Ivan Laptev
- Abstract要約: PolarNetは、言語誘導操作のための3Dポイントクラウドベースのポリシーである。
3Dポイントクラウド表現を学習し、アクション予測のための言語命令と統合する。
シングルタスクとマルチタスクの学習において、最先端の2Dおよび3Dアプローチより優れている。
- 参考スコア(独自算出の注目度): 93.46306666726969
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The ability for robots to comprehend and execute manipulation tasks based on
natural language instructions is a long-term goal in robotics. The dominant
approaches for language-guided manipulation use 2D image representations, which
face difficulties in combining multi-view cameras and inferring precise 3D
positions and relationships. To address these limitations, we propose a 3D
point cloud based policy called PolarNet for language-guided manipulation. It
leverages carefully designed point cloud inputs, efficient point cloud
encoders, and multimodal transformers to learn 3D point cloud representations
and integrate them with language instructions for action prediction. PolarNet
is shown to be effective and data efficient in a variety of experiments
conducted on the RLBench benchmark. It outperforms state-of-the-art 2D and 3D
approaches in both single-task and multi-task learning. It also achieves
promising results on a real robot.
- Abstract(参考訳): 自然言語に基づく操作タスクをロボットが理解し、実行する能力は、ロボット工学の長期的な目標である。
言語誘導操作の主流となるアプローチは、多視点カメラの組み合わせと正確な3D位置と関係の推測に困難に直面している2D画像表現を用いる。
これらの制約に対処するため,言語誘導操作のためのPolarNetと呼ばれる3Dポイントクラウドベースのポリシーを提案する。
慎重に設計されたポイントクラウド入力、効率的なポイントクラウドエンコーダ、マルチモーダルトランスフォーマーを利用して、3Dポイントクラウド表現を学び、アクション予測のための言語命令と統合する。
polarnetはrlbenchベンチマークで実施された様々な実験で効率的で効率的なことが示されている。
シングルタスクとマルチタスクの学習において、最先端の2Dおよび3Dアプローチより優れている。
また、実際のロボットで有望な結果が得られる。
関連論文リスト
- 3D Diffuser Actor: Policy Diffusion with 3D Scene Representations [22.38159646424264]
拡散ポリシは、条件付き拡散モデルを用いて、ロボットに条件付された行動分布と環境状態を学ぶ。
3Dロボットポリシーでは、感覚深度を用いて1つまたは複数のカメラビューから集約された3Dシーンの特徴表現を使用する。
本稿では,ロボットのエンドエフェクタの3次元回転と翻訳を反復的に認知するために,視覚シーンと環境の3次元表現を構築するニューラルポリシーアーキテクチャである3Dディフューザアクタを提案する。
論文 参考訳(メタデータ) (2024-02-16T18:43:02Z) - GS-CLIP: Gaussian Splatting for Contrastive Language-Image-3D
Pretraining from Real-World Data [73.06536202251915]
ポイントクラウドとして表される3D形状は、画像と言語記述を整列させるために、マルチモーダル事前トレーニングの進歩を実現している。
GS-CLIPは,3D表現を向上させるために,マルチモーダル事前学習に3DGSを導入するための最初の試みである。
論文 参考訳(メタデータ) (2024-02-09T05:46:47Z) - Point-Bind & Point-LLM: Aligning Point Cloud with Multi-modality for 3D
Understanding, Generation, and Instruction Following [88.39360296377589]
ポイントクラウドを2次元画像,言語,音声,ビデオと整合させる3次元マルチモーダリティモデルであるPoint-Bindを紹介する。
また、3次元マルチモーダル命令に続く最初の3次元大規模言語モデル(LLM)であるPoint-LLMを提案する。
論文 参考訳(メタデータ) (2023-09-01T17:59:47Z) - PointLLM: Empowering Large Language Models to Understand Point Clouds [67.1783384610417]
PointLLMは人間の指示で色のついたオブジェクトポイントクラウドを理解する。
文脈的に適切な応答を生成し、点雲と常識の把握を図示する。
論文 参考訳(メタデータ) (2023-08-31T17:59:46Z) - Act3D: 3D Feature Field Transformers for Multi-Task Robotic Manipulation [18.964403296437027]
Act3Dは、手作業に依存する適応的な解像度を持つ3D特徴体を用いて、ロボットのワークスペースを表現する。
粗い方法で3Dポイントグリッドをサンプリングし、相対的な位置の注意を使ってそれらを巧みに加工し、次の点サンプリングのラウンドにフォーカスする場所を選択する。
論文 参考訳(メタデータ) (2023-06-30T17:34:06Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - Learning 6-DoF Fine-grained Grasp Detection Based on Part Affordance
Grounding [20.308345257733894]
本稿では,言語指導型SHape grAsPingデータを用いた3D学習手法を提案する。
我々は、新しい2段階きめ細粒度ロボット把握ネットワーク(PIONEER)を設計する。
提案手法は, 参照識別, 割当推論, 3次元部分認識の把握において, 良好な性能と効率が得られることを示す。
論文 参考訳(メタデータ) (2023-01-27T07:00:54Z) - Look Around and Refer: 2D Synthetic Semantics Knowledge Distillation for
3D Visual Grounding [23.672405624011873]
本稿では,点雲から合成した2次元手がかりを用いて3次元視覚ストリームを統合するモジュールを提案する。
学習した視覚表現の質を高める能力について実証的に示す。
提案したモジュールはLear Around and Refer (LAR)と呼ばれ、3つのベンチマークで最先端の3Dビジュアルグラウンド技術よりも大幅に優れています。
論文 参考訳(メタデータ) (2022-11-25T17:12:08Z) - Unsupervised Learning of Fine Structure Generation for 3D Point Clouds
by 2D Projection Matching [66.98712589559028]
微細な構造を持つ3次元点雲生成のための教師なしアプローチを提案する。
本手法は2次元シルエット画像から異なる解像度で微細な3次元構造を復元することができる。
論文 参考訳(メタデータ) (2021-08-08T22:15:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。