論文の概要: Differentiable Inverse Graphics for Zero-shot Scene Reconstruction and Robot Grasping
- arxiv url: http://arxiv.org/abs/2602.05029v1
- Date: Wed, 04 Feb 2026 20:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.605467
- Title: Differentiable Inverse Graphics for Zero-shot Scene Reconstruction and Robot Grasping
- Title(参考訳): ゼロショットシーン再構成とロボットグラフ作成のための微分逆グラフ
- Authors: Octavio Arriaga, Proneet Sharma, Jichen Guo, Marc Otto, Siddhant Kadwe, Rebecca Adam,
- Abstract要約: 我々は,ニューラルネットワークモデルと物理に基づく微分可能レンダリングを組み合わせて,ゼロショットシーン再構成とロボットの把握を行う,微分可能なニューログラフィックモデルを提案する。
我々のアプローチは、新しい環境におけるよりデータ効率が高く、解釈可能で、一般化可能なロボット自律性への道筋を提供する。
- 参考スコア(独自算出の注目度): 0.820984376071696
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Operating effectively in novel real-world environments requires robotic systems to estimate and interact with previously unseen objects. Current state-of-the-art models address this challenge by using large amounts of training data and test-time samples to build black-box scene representations. In this work, we introduce a differentiable neuro-graphics model that combines neural foundation models with physics-based differentiable rendering to perform zero-shot scene reconstruction and robot grasping without relying on any additional 3D data or test-time samples. Our model solves a series of constrained optimization problems to estimate physically consistent scene parameters, such as meshes, lighting conditions, material properties, and 6D poses of previously unseen objects from a single RGBD image and bounding boxes. We evaluated our approach on standard model-free few-shot benchmarks and demonstrated that it outperforms existing algorithms for model-free few-shot pose estimation. Furthermore, we validated the accuracy of our scene reconstructions by applying our algorithm to a zero-shot grasping task. By enabling zero-shot, physically-consistent scene reconstruction and grasping without reliance on extensive datasets or test-time sampling, our approach offers a pathway towards more data efficient, interpretable and generalizable robot autonomy in novel environments.
- Abstract(参考訳): 新たな現実世界環境で効果的に運用するには、ロボットシステムがこれまで見つからなかった物体を推定し、相互作用する必要がある。
現在の最先端モデルは、大量のトレーニングデータとテスト時間サンプルを使用してブラックボックスシーン表現を構築することで、この問題に対処している。
本研究では,ニューラルネットワークモデルと物理に基づく微分可能レンダリングを組み合わせることで,ゼロショットシーンの再構築とロボットの把握を,追加の3Dデータやテストタイムサンプルに頼ることなく実現する,微分可能なニューログラフィックモデルを提案する。
我々のモデルは、メッシュ、照明条件、材料特性、RGBD画像とバウンディングボックスからの未確認物体の6次元ポーズなどの物理的に一貫したシーンパラメータを推定するために、一連の制約付き最適化問題を解く。
提案手法を標準モデルフリー・ショット・ベンチマークで評価し,モデルフリー・ショット・ポーズ推定における既存アルゴリズムよりも優れていることを示した。
さらに,ゼロショット把握タスクにアルゴリズムを適用し,シーン再構成の精度を検証した。
広範なデータセットやテストタイムサンプリングに頼ることなく、ゼロショット、物理的に一貫性のあるシーン再構築と把握を可能にすることにより、新しい環境におけるより効率的な、解釈可能な、一般化可能なロボット自律性を実現するための道筋を提供する。
関連論文リスト
- Mirage2Matter: A Physically Grounded Gaussian World Model from Video [87.9732484393686]
我々は、グラフィック駆動の世界モデリングおよびシミュレーションフレームワークであるSimulate Anythingを紹介する。
実世界の環境を3次元ガウススプレイティング(3DGS)による写実的シーン表現に再構築する。
次に、生成モデルを利用して、物理的に現実的な表現を復元し、精度校正ターゲットを介してシミュレーション環境に統合する。
論文 参考訳(メタデータ) (2026-01-24T07:43:57Z) - Is Single-View Mesh Reconstruction Ready for Robotics? [78.14584238127338]
本研究では,ロボット操作のための物理シミュレータを用いたリアルタイム計画と動的予測のためのディジタル双対生成の実現の可能性について,単一ビューメッシュ再構成モデルの評価を行った。
我々の研究は、コンピュータビジョンの進歩とロボティクスの必要性の間に重要なギャップがあることを浮き彫りにし、この交差点における将来の研究を導く。
論文 参考訳(メタデータ) (2025-05-23T14:35:56Z) - ZeroGrasp: Zero-Shot Shape Reconstruction Enabled Robotic Grasping [40.288085021667065]
リアルタイムに3次元再構成とポーズ予測を同時に行うZeroGraspを紹介した。
我々はGraspNet-1BベンチマークでZeroGraspを実世界のロボット実験で評価した。
論文 参考訳(メタデータ) (2025-04-15T04:37:39Z) - Targeted Hard Sample Synthesis Based on Estimated Pose and Occlusion Error for Improved Object Pose Estimation [9.637714330461037]
モデルに依存しない新しいハードサンプル合成法を提案する。
本研究では,最先端ポーズ推定モデルを用いて,複数のROBIデータセットオブジェクトに対して最大20%の精度で検出率を向上することを示す。
論文 参考訳(メタデータ) (2024-12-05T16:00:55Z) - Zero123-6D: Zero-shot Novel View Synthesis for RGB Category-level 6D Pose Estimation [66.3814684757376]
本研究は,RGB 6Dのカテゴリレベルでのポーズ推定を向上するための拡散モデルに基づく新規ビュー合成器の実用性を示す最初の研究であるZero123-6Dを示す。
本手法は,データ要求の低減,ゼロショットカテゴリレベルの6Dポーズ推定タスクにおける深度情報の必要性の除去,およびCO3Dデータセットの実験により定量的に示された性能の向上を示す。
論文 参考訳(メタデータ) (2024-03-21T10:38:18Z) - ZeroPose: CAD-Prompted Zero-shot Object 6D Pose Estimation in Cluttered Scenes [19.993163470302097]
ZeroPoseは、Discovery-Orientation-Registration (DOR)推論パイプラインに従ってポーズ推定を行う、新しいフレームワークである。
モデルの再トレーニングを必要とせずに、新しいオブジェクトに一般化する。
オブジェクト固有のトレーニング手法と同等の性能を達成し、50倍の推論速度向上で最先端のゼロショット法より優れている。
論文 参考訳(メタデータ) (2023-05-29T07:54:04Z) - Robust Category-Level 3D Pose Estimation from Synthetic Data [17.247607850702558]
CADモデルから生成されたオブジェクトポーズ推定のための新しい合成データセットであるSyntheticP3Dを紹介する。
逆レンダリングによるポーズ推定を行うニューラルネットワークモデルをトレーニングするための新しいアプローチ(CC3D)を提案する。
論文 参考訳(メタデータ) (2023-05-25T14:56:03Z) - Shape, Pose, and Appearance from a Single Image via Bootstrapped
Radiance Field Inversion [54.151979979158085]
提案手法では,自然画像に対する基本的エンドツーエンド再構築フレームワークを導入し,正確な地平のポーズが得られない。
そこで,モデルが解の第一の推算を生成するハイブリッド・インバージョン・スキームを適用する。
当社のフレームワークでは,イメージを10ステップでデレンダリングすることが可能で,現実的なシナリオで使用することが可能です。
論文 参考訳(メタデータ) (2022-11-21T17:42:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。