Fugu-MT 論文翻訳(概要): Object Pose and Shape Estimation for Grasping: Does it Work?

論文の概要: Object Pose and Shape Estimation for Grasping: Does it Work?

arxiv url: http://arxiv.org/abs/2605.26944v1
Date: Tue, 26 May 2026 12:32:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-27 17:51:42.089694
Title: Object Pose and Shape Estimation for Grasping: Does it Work?
Title（参考訳）: グラッピングのためのオブジェクトポースと形状推定:それは機能するのか?
Authors: Pavan Karke, Kushal Shah, Gaurav Singh, Md Faizal Karim, K Madhava Krishna, Rajat Talak,
Abstract要約: 我々は、最先端の、エンドツーエンドのグリップ合成法と3つのモジュラー法を実装し、比較する。すべての実験において、モジュラー手法がエンドツーエンドの手法より優れていることが観察された。モジュラー手法の有効性はポーズと形状推定の精度に左右され, 乱れの場面では部分的劣化に悩まされる。
参考スコア（独自算出の注目度）: 9.551679570761832
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The problem of object pose and shape estimation has seen key advancements lately. Encoder-decoder (e.g., SAM3D, LRM, CRISP) and diffusion-based models (e.g., InstantMesh, Zero123, SceneComplete) have shown category-agnostic shape encoding capacity and open-set generalizability. In this work, we ask the question: Are the object pose and shape estimation methods mature enough, such that when used with antipodal grasp sampling, can outperform the end-to-end grasp synthesis methods? We explore this question in detail by scoping our study to parallel jaw grippers, 7-DoF grasps, and single-view RGB(-D) image as input. We implement and compare a state-of-the-art, end-to-end grasp synthesis method and three modular methods, which first estimate the object pose and shape for all objects in the scene, and generate grasps using antipodal sampling. We observe that the modular methods outperform the end-to-end method in all our experiments. The modular methods are able to synthesize plenty of grasps, even for small objects, where the end-to-end methods fail. The effectiveness of the modular methods is contingent on the accuracy of the pose and shape estimation, and suffers partial degradation in cluttered scenes - a limitation of the existing pose and shape estimation methods. We also analyze the failure modes and run-times for the three modular methods, which use two different ways of object pose and shape estimation: one based on an encoder-decoder model, while another a diffusion model. Finally, we demonstrate that the single-view object pose and shape estimation methods can be augmented with vision-language models to yield language-conditioned grasps from just single-view RGB-D image as input. We notice comparable performance to the state-of-the-art LERF-TOGO baseline.
Abstract（参考訳）: オブジェクトのポーズと形状推定の問題は、最近重要な進歩を見せている。 Encoder-decoder (例:SAM3D, LRM, CRISP) と拡散モデル (例: InstantMesh, Zero123, SceneComplete) は、カテゴリに依存しない形状符号化能力と開集合一般化性を示している。本研究では, 対象のポーズと形状推定法は十分に成熟しているのか, 対足的グリップサンプリングで使用する場合, エンドツーエンドグリップ合成法よりも優れているか, という疑問を呈する。本研究では, 平行グリップ, 7-DoFグリップ, シングルビューRGB(-D)画像を入力として, この問題を詳細に検討する。まず,現場のすべてのオブジェクトに対して,オブジェクトのポーズや形状を推定し,反ポジカルサンプリングを用いてグリップを生成する,最先端のエンドツーエンドのグリップ合成法と3つのモジュラー手法を実装し,比較する。すべての実験において、モジュラー手法がエンドツーエンドの手法より優れていることが観察された。モジュール化されたメソッドは、エンド・ツー・エンドのメソッドが失敗する小さなオブジェクトであっても、多くのグリップを合成することができます。モジュラー手法の有効性は,ポーズと形状推定の精度に左右され,既存のポーズと形状推定の限界である散在シーンにおける部分的な劣化に悩まされる。また、3つのモジュラーメソッドの障害モードと実行時間を解析し、オブジェクトのポーズと形状推定の2つの異なる方法(エンコーダ・デコーダモデルに基づくもの)と拡散モデル(拡散モデル)を用いて分析する。最後に、単一視点オブジェクトのポーズと形状推定法を視覚言語モデルで拡張することにより、単一視点RGB-D画像のみを入力として言語条件の把握が得られることを示す。我々は最先端のLERF-TOGOベースラインに匹敵する性能を示した。

関連論文リスト

One2Any: One-Reference 6D Pose Estimation for Any Object [98.50085481362808]
6Dオブジェクトのポーズ推定は、完全な3Dモデルへの依存、マルチビューイメージ、特定のオブジェクトカテゴリに限定したトレーニングのため、多くのアプリケーションにとって依然として困難である。本稿では,単一の参照単一クエリRGB-D画像のみを用いて,相対6自由度(DOF)オブジェクトのポーズを推定する新しい手法One2Anyを提案する。複数のベンチマークデータセットの実験により、我々のモデルは新しいオブジェクトによく一般化し、最先端の精度を実現し、また、コンピュータのごく一部でマルチビューやCAD入力を必要とする競合する手法さえも実現している。
論文参考訳（メタデータ） (2025-05-07T03:54:59Z)
Toward General Object-level Mapping from Sparse Views with 3D Diffusion Priors [8.701106353658346]
一般的なオブジェクトレベルのマッピングは、細かな形状と多視点センサーの観察によるポーズで、シーン内のオブジェクトの3Dマップを構築する。最近の研究は、スパースビューからオブジェクトレベルのマッピングに先立つ生成的な形状を導入しているが、それは単一カテゴリオブジェクトに限定されている。本研究では,3次元拡散モデルを用いた汎用オブジェクトレベルマッピングシステム GOM を提案し,シーン内の全てのオブジェクトのテクスチャと幾何学の両方に対してニューラルレージアンス場 (NeRF) を出力する。
論文参考訳（メタデータ） (2024-10-07T21:33:30Z)
DVMNet++: Rethinking Relative Pose Estimation for Unseen Objects [59.51874686414509]
既存のアプローチでは、通常、接地構造オブジェクト境界ボックスと、多数の離散仮説を持つ近似3次元回転を用いて3次元翻訳を予測している。本稿では,1回のパスで相対オブジェクトのポーズを計算するDeep Voxel Matching Network (DVMNet++)を提案する。提案手法は,最先端手法と比較して計算コストの低い新しいオブジェクトに対して,より正確な相対的ポーズ推定を行う。
論文参考訳（メタデータ） (2024-03-20T15:41:32Z)
FoundationPose: Unified 6D Pose Estimation and Tracking of Novel Objects [55.77542145604758]
FoundationPoseは、6Dオブジェクトのポーズ推定と追跡のための統合基盤モデルである。我々のアプローチは、微調整なしで、テスト時に新しいオブジェクトに即座に適用できる。
論文参考訳（メタデータ） (2023-12-13T18:28:09Z)
MFOS: Model-Free & One-Shot Object Pose Estimation [10.009454818723025]
最小限の入力が与えられた場合、トレーニング中に見たことのないオブジェクトのポーズを1つのフォワードで推定できる新しいアプローチを導入する。我々は、LINEMODベンチマークで広範な実験を行い、最先端のワンショット性能を報告した。
論文参考訳（メタデータ） (2023-10-03T09:12:07Z)
SDFEst: Categorical Pose and Shape Estimation of Objects from RGB-D using Signed Distance Fields [5.71097144710995]
RGB-D画像からのオブジェクトのポーズと形状推定のためのモジュールパイプラインを提案する。生成型形状モデルと新しいネットワークを統合して,単一または複数ビューからの6次元ポーズと形状推定を可能にする。我々は、合成データと実データの両方に関するいくつかの実験において、最先端手法に対するアプローチの利点を実証する。
論文参考訳（メタデータ） (2022-07-11T13:53:50Z)
The Best of Both Worlds: Combining Model-based and Nonparametric Approaches for 3D Human Body Estimation [20.797162096899154]
本稿では,グローバル画像特徴量からモデルパラメータを推定するフレームワークを提案する。密度マップ予測モジュールは、画像証拠と身体モデルの各部分との間の密度UV対応を明確に確立する。逆キネマティクスモジュールはキーポイント予測を洗練し、テンプレートメッシュを生成する。紫外線塗布モジュールは、対応する特徴、予測、提案されたテンプレートに依存し、閉塞した身体形状の予測を完了させる。
論文参考訳（メタデータ） (2022-05-01T16:39:09Z)
Disentangled Implicit Shape and Pose Learning for Scalable 6D Pose Estimation [44.8872454995923]
単一オートエンコーダを用いた複数オブジェクトの合成データに対する自己教師付き学習により,スケーラブルな6次元ポーズ推定のための新しい手法を提案する。提案手法は,T-LESS と NOCS REAL275 という実データを持つ2つのマルチオブジェクトベンチマークで検証し,ポーズ推定精度と一般化の点で既存の RGB 法より優れていることを示す。
論文参考訳（メタデータ） (2021-07-27T01:55:30Z)
ShaRF: Shape-conditioned Radiance Fields from a Single View [54.39347002226309]
本稿では,単一の画像のみのオブジェクトの神経シーン表現を推定する手法を提案する。この手法の核心は,対象物の幾何学的足場の推定である。合成画像と実画像の両方において,提案手法の有効性を示す実験を行った。
論文参考訳（メタデータ） (2021-02-17T16:40:28Z)
Monocular Human Pose and Shape Reconstruction using Part Differentiable Rendering [53.16864661460889]
近年の研究では、3次元基底真理によって教師されるディープニューラルネットワークを介してパラメトリックモデルを直接推定する回帰に基づく手法が成功している。本稿では,ボディセグメンテーションを重要な監視対象として紹介する。部分分割による再構成を改善するために,部分分割により部分ベースモデルを制御可能な部分レベル微分可能部を提案する。
論文参考訳（メタデータ） (2020-03-24T14:25:46Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。