論文の概要: DreamGrasp: Zero-Shot 3D Multi-Object Reconstruction from Partial-View Images for Robotic Manipulation
- arxiv url: http://arxiv.org/abs/2507.05627v1
- Date: Tue, 08 Jul 2025 03:12:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-09 16:34:37.54182
- Title: DreamGrasp: Zero-Shot 3D Multi-Object Reconstruction from Partial-View Images for Robotic Manipulation
- Title(参考訳): DreamGrasp: ロボットマニピュレーションのための部分視点画像からのゼロショット3次元多物体再構成
- Authors: Young Hun Kim, Seungyeon Kim, Yonghyeon Lee, Frank Chongwoo Park,
- Abstract要約: シーンの未観測部分を推論するフレームワークであるDreamGraspを紹介します。
粗い3D再構成、対照的な学習によるインスタンスセグメンテーション、テキスト誘導型インスタンスワイドリファインメントを組み合わせることで、DreamGraspは以前の方法の制限を回避することができる。
実験の結果,DreamGraspは正確なオブジェクト形状を復元するだけでなく,シーケンシャルなデクラッタリングや高い成功率のターゲット検索といった下流タスクもサポートしていることがわかった。
- 参考スコア(独自算出の注目度): 12.812918371506209
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Partial-view 3D recognition -- reconstructing 3D geometry and identifying object instances from a few sparse RGB images -- is an exceptionally challenging yet practically essential task, particularly in cluttered, occluded real-world settings where full-view or reliable depth data are often unavailable. Existing methods, whether based on strong symmetry priors or supervised learning on curated datasets, fail to generalize to such scenarios. In this work, we introduce DreamGrasp, a framework that leverages the imagination capability of large-scale pre-trained image generative models to infer the unobserved parts of a scene. By combining coarse 3D reconstruction, instance segmentation via contrastive learning, and text-guided instance-wise refinement, DreamGrasp circumvents limitations of prior methods and enables robust 3D reconstruction in complex, multi-object environments. Our experiments show that DreamGrasp not only recovers accurate object geometry but also supports downstream tasks like sequential decluttering and target retrieval with high success rates.
- Abstract(参考訳): 部分的なビュー3D認識 -- わずかなRGBイメージからオブジェクトインスタンスを再構築し、オブジェクトインスタンスを識別する -- は、特にフルビューまたは信頼性の高い深度データがしばしば利用できない、散らばった現実世界の設定において、非常に難しいが、現実的に不可欠なタスクである。
既存の手法は、強い対称性の先行に基づくものであっても、キュレートされたデータセットの教師あり学習であっても、そのようなシナリオに一般化することができない。
本研究では,大規模な事前学習画像生成モデルの想像力を活用し,シーンの未観測部分を推定するフレームワークであるDreamGraspを紹介する。
粗い3D再構成、コントラスト学習によるインスタンスセグメンテーション、テキスト誘導型インスタンスワイズメントを組み合わせることで、DreamGraspは従来の手法の限界を回避し、複雑で多目的な環境で堅牢な3D再構成を可能にする。
実験の結果,DreamGraspは正確なオブジェクト形状を復元するだけでなく,シーケンシャルなデクラッタリングや高い成功率のターゲット検索といった下流タスクもサポートしていることがわかった。
関連論文リスト
- Object-X: Learning to Reconstruct Multi-Modal 3D Object Representations [112.29763628638112]
Object-Xは多目的なマルチモーダル3D表現フレームワークである。
リッチなオブジェクトの埋め込みをエンコードして、幾何学的および視覚的再構成に復号することができる。
シーンアライメント、シングルイメージの3Dオブジェクト再構成、ローカライゼーションなど、さまざまなダウンストリームタスクをサポートする。
論文 参考訳(メタデータ) (2025-06-05T09:14:42Z) - SR3D: Unleashing Single-view 3D Reconstruction for Transparent and Specular Object Grasping [7.222966501323922]
本研究では,単一視界から透明物体とスペキュラ物体をロボットで把握することのできる,学習自由フレームワークSR3Dを提案する。
具体的には、単一のビューRGBと深度画像が与えられた場合、SR3Dはまず外部視覚モデルを使用して3D再構成されたオブジェクトメッシュを生成する。
そして、鍵となるアイデアは、3Dオブジェクトのポーズとスケールを決定し、再構成されたオブジェクトを元の奥行き劣化した3Dシーンに正確にローカライズすることだ。
論文 参考訳(メタデータ) (2025-05-30T07:38:46Z) - Multi-Modal 3D Mesh Reconstruction from Images and Text [7.9471205712560264]
少ない入力画像から3Dメッシュを再構成する言語誘導型少数ショット3D再構成法を提案する。
テクスチャとテクスチャの精度と品質の観点から,本手法の評価を行った。
論文 参考訳(メタデータ) (2025-03-10T11:18:17Z) - Zero-Shot Multi-Object Scene Completion [59.325611678171974]
1枚のRGB-D画像から複雑なシーンにおける複数の見えない物体の完全な形状を復元する3Dシーン補完法を提案する。
提案手法は, 合成および実世界の両方のデータセットにおいて, 現在の最先端技術よりも優れている。
論文 参考訳(メタデータ) (2024-03-21T17:59:59Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z) - Single-view 3D Mesh Reconstruction for Seen and Unseen Categories [69.29406107513621]
シングルビュー3Dメッシュ再構成は、シングルビューRGB画像から3D形状を復元することを目的とした、基本的なコンピュータビジョンタスクである。
本稿では,一視点3Dメッシュ再構成に取り組み,未知のカテゴリのモデル一般化について検討する。
我々は、再構築におけるカテゴリ境界を断ち切るために、エンドツーエンドの2段階ネットワークであるGenMeshを提案する。
論文 参考訳(メタデータ) (2022-08-04T14:13:35Z) - Unsupervised Severely Deformed Mesh Reconstruction (DMR) from a
Single-View Image [26.464091507125826]
単視点画像から3次元形状を推定するテンプレートベースの手法を導入し、再構成メッシュを下流タスクに適用する。
本手法は3次元メッシュを忠実に再構築し,魚の群集長計測における最先端の精度を実現する。
論文 参考訳(メタデータ) (2022-01-23T21:46:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。