論文の概要: Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation
- arxiv url: http://arxiv.org/abs/2308.07931v2
- Date: Sat, 30 Dec 2023 01:10:41 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-03 01:58:44.994372
- Title: Distilled Feature Fields Enable Few-Shot Language-Guided Manipulation
- Title(参考訳): 少数ショット言語誘導マニピュレーションが可能な蒸留機能フィールド
- Authors: William Shen, Ge Yang, Alan Yu, Jansen Wong, Leslie Pack Kaelbling,
Phillip Isola
- Abstract要約: この研究は、蒸留された特徴場を利用して2次元基礎モデルのリッチなセマンティクスと正確な3次元幾何学を組み合わせることにより、ロボット操作のための2次元から3次元のギャップを橋渡しする。
そこで本研究では,これらの空間的および意味的先行性を利用した6-DOFの把握と配置のための数ショットの学習手法を提案する。
- 参考スコア(独自算出の注目度): 44.58709274218105
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Self-supervised and language-supervised image models contain rich knowledge
of the world that is important for generalization. Many robotic tasks, however,
require a detailed understanding of 3D geometry, which is often lacking in 2D
image features. This work bridges this 2D-to-3D gap for robotic manipulation by
leveraging distilled feature fields to combine accurate 3D geometry with rich
semantics from 2D foundation models. We present a few-shot learning method for
6-DOF grasping and placing that harnesses these strong spatial and semantic
priors to achieve in-the-wild generalization to unseen objects. Using features
distilled from a vision-language model, CLIP, we present a way to designate
novel objects for manipulation via free-text natural language, and demonstrate
its ability to generalize to unseen expressions and novel categories of
objects.
- Abstract(参考訳): 自己教師型および言語教師型画像モデルは、一般化に重要な世界の豊富な知識を含んでいる。
しかし、多くのロボットタスクは、しばしば2D画像の特徴に欠けている3D幾何学の詳細な理解を必要とする。
この研究は、2d基礎モデルからの正確な3d幾何学とリッチセマンティクスを組み合わせるために蒸留フィーチャフィールドを活用することで、ロボット操作のためのこの2dから3dへのギャップを橋渡しする。
そこで本研究では,これらの空間的および意味的先行性を利用した6-DOFの把握と配置のための数ショット学習手法を提案する。
視覚言語モデルであるCLIPから抽出した特徴を用いて、自由テキスト自然言語による操作のための新しいオブジェクトを指定し、未知の表現や新しいカテゴリのオブジェクトに一般化する能力を示す。
関連論文リスト
- 3D Feature Distillation with Object-Centric Priors [9.626027459292926]
CLIPのような2Dビジョン言語モデルは、2Dイメージのオープン語彙グラウンドディングに優れた機能を備えているため、広く普及している。
最近の研究は、特徴蒸留によって2D CLIP機能を3Dに高めることを目的としているが、シーン固有のニューラルネットワークを学ぶか、室内のスキャンデータにフォーカスする。
提案手法は, 3次元CLIPの特徴を再構築し, 接地能力と空間的整合性を改善した。
論文 参考訳(メタデータ) (2024-06-26T20:16:49Z) - SUGAR: Pre-training 3D Visual Representations for Robotics [85.55534363501131]
ロボット工学のための新しい3D事前学習フレームワークSUGARを紹介した。
SUGARは3次元の点雲を通してオブジェクトの意味的、幾何学的、および余分な特性をキャプチャする。
SuGARの3D表現は最先端の2Dおよび3D表現よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-04-01T21:23:03Z) - Weakly-Supervised 3D Visual Grounding based on Visual Linguistic Alignment [26.858034573776198]
視覚言語アライメントに基づく3次元視覚接地のための弱教師付きアプローチを提案する。
我々の3D-VLAは、テキストと2D画像のセマンティクスの整合性において、現在の大規模視覚言語モデルの優れた能力を利用する。
推論段階では、学習したテキスト3D対応は、2D画像がなくてもテキストクエリを3D対象オブジェクトにグラウンド化するのに役立ちます。
論文 参考訳(メタデータ) (2023-12-15T09:08:14Z) - CLIP$^2$: Contrastive Language-Image-Point Pretraining from Real-World
Point Cloud Data [80.42480679542697]
現実シナリオにおける3Dポイントクラウド表現の伝達を学習するために,Contrastive Language-Image-Point Cloud Pretraining (CLIP$2$)を提案する。
具体的には、2Dおよび3Dシナリオで自然に存在する対応を利用して、それらの複雑なシナリオから、適切に整列されたインスタンスベースのテキストイメージポイントプロキシを構築します。
論文 参考訳(メタデータ) (2023-03-22T09:32:45Z) - SSR-2D: Semantic 3D Scene Reconstruction from 2D Images [54.46126685716471]
本研究では,3Dアノテーションを使わずにセマンティックなシーン再構成を行う中心的な3Dシーンモデリングタスクについて検討する。
提案手法の鍵となる考え方は,不完全な3次元再構成と対応するRGB-D画像の両方を用いたトレーニング可能なモデルの設計である。
本研究では,2つの大規模ベンチマークデータセットであるMatterPort3DとScanNetに対して,セマンティックシーン補完の最先端性能を実現する。
論文 参考訳(メタデータ) (2023-02-07T17:47:52Z) - Multiview Compressive Coding for 3D Reconstruction [77.95706553743626]
単一オブジェクトの3Dポイントやシーン全体で動作するシンプルなフレームワークを紹介します。
我々のモデルであるMultiview Compressive Codingは、入力の外観と形状を圧縮して3次元構造を予測する。
論文 参考訳(メタデータ) (2023-01-19T18:59:52Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Learning to Reconstruct and Segment 3D Objects [4.709764624933227]
我々は、ディープニューラルネットワークを用いて一般的な、堅牢な表現を学習することで、その中のシーンやオブジェクトを理解することを目指している。
この論文は、単一または複数ビューからのオブジェクトレベルの3次元形状推定からシーンレベルのセマンティック理解までの3つのコアコントリビューションである。
論文 参考訳(メタデータ) (2020-10-19T15:09:04Z) - GRF: Learning a General Radiance Field for 3D Representation and
Rendering [4.709764624933227]
我々は、暗黙的に3Dオブジェクトとシーンを2D観察からのみ表現しレンダリングする、シンプルだが強力なニューラルネットワークを提案する。
ネットワークは、一般的な放射場として3Dジオメトリをモデル化し、カメラのポーズと固有の2D画像のセットを入力として取り込む。
提案手法は, 斬新なオブジェクト, 見えないカテゴリ, 現実のシーンに対して, 高品質で現実的な新しいビューを生成できる。
論文 参考訳(メタデータ) (2020-10-09T14:21:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。