論文の概要: Geometry-Guided Modeling of Foundation Features Enables Generalizable Object Shape Deformation Learning
- arxiv url: http://arxiv.org/abs/2605.29661v2
- Date: Tue, 02 Jun 2026 02:37:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.160881
- Title: Geometry-Guided Modeling of Foundation Features Enables Generalizable Object Shape Deformation Learning
- Title(参考訳): 一般化可能な物体形状変形学習を可能にする基礎的特徴の幾何学誘導モデリング
- Authors: Yiyao Ma, Kai Chen, Zhongxiang Zhou, Zhuheng Song, Dongsheng Xie, Zelong Tan, Rong Xiong, Qi Dou,
- Abstract要約: 対象の観測値にマッチするカテゴリレベルの形状テンプレートを明示的に変形させることで、3Dオブジェクトを再構成する一般化可能な変形学習フレームワークを提案する。
提案手法は, 形状の多様性と多様な視点の取り扱いにおいて, 最先端の手法よりも優れていた。
- 参考スコア(独自算出の注目度): 35.877851584795906
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Monocular 3D shape recovery is fundamental to geometric understanding, yet achieving robust generalization across arbitrary viewpoints and unseen object categories remains a significant challenge. In this paper, we present a generalizable deformation learning framework that reconstructs 3D objects by explicitly deforming a category-level shape template to match the target observation. To address complex shape variations between the template and the target, we introduce a geometry-guided feature modeling mechanism. This process first enriches foundation features with template topology to yield a geometry-aware representation, which is then explicitly correlated with the target observation to guide precise deformation. Furthermore, to bridge the disparity between the fixed template and arbitrary target views, we propose a view-adaptive feature aggregation module. This module leverages multi-view template features and their corresponding camera poses to enrich the canonical template representation, ensuring robust feature alignment regardless of the target's perspective. Extensive experiments demonstrate that our approach significantly outperforms state-of-the-art methods in handling large shape variations and diverse viewpoints, exhibiting strong generalization to novel categories and effectively supporting downstream real-world dexterous robotic manipulation tasks. Project homepage: https://GODeform.github.io/
- Abstract(参考訳): 特異な3次元形状の復元は幾何学的理解の基礎であるが、任意の視点と見えない対象カテゴリをまたいだ堅牢な一般化を実現することは、依然として重要な課題である。
本稿では,3次元オブジェクトを対象の観測値に合わせるために,カテゴリレベルの形状テンプレートを明示的に変形させることにより,3次元オブジェクトを再構成する一般化可能な変形学習フレームワークを提案する。
テンプレートとターゲットの複雑な形状変化に対処するために,幾何誘導型特徴モデリング機構を導入する。
このプロセスはまず、基礎的特徴をテンプレートトポロジーで豊かにし、幾何学的に認識された表現を生成し、対象の観測と明示的に相関して正確な変形を導く。
さらに,固定テンプレートと任意のターゲットビューの相違を補うために,ビュー適応型特徴集約モジュールを提案する。
このモジュールは、マルチビューテンプレート機能と対応するカメラのポーズを利用して、標準テンプレート表現を強化し、ターゲットの視点に関わらず、ロバストな特徴アライメントを保証する。
大規模な形状変化や多様な視点の処理において,本手法が最先端の手法よりも優れており,新たなカテゴリへの強力な一般化と,下流のロボット操作タスクを効果的に支援できることが実証された。
プロジェクトのホームページ: https://GODeform.github.io/
関連論文リスト
- Feed-Forward 3D Scene Modeling: A Problem-Driven Perspective [91.23306722968509]
汎用的なフィードフォワード3D再構築は近年急速に進展している。
既存のフィードフォワードアプローチも同様に高いレベルのアーキテクチャパターンを共有している。
本稿では,出力形式に依存しないモデル設計戦略を中心とした新しい分類法を提案する。
論文 参考訳(メタデータ) (2026-04-15T16:07:18Z) - Towards Realistic and Consistent Orbital Video Generation via 3D Foundation Priors [61.34273238077091]
本稿では,物体の単一画像からオービタルビデオを生成する新しい手法を提案する。
本手法は,最先端の手法と比較して,視覚的品質,形状リアリズム,多視点整合性を実現している。
論文 参考訳(メタデータ) (2026-04-14T05:35:46Z) - Matching Shapes Under Different Topologies: A Topology-Adaptive Deformation Guided Approach [6.851721795186258]
非厳密な3Dメッシュマッチングは、コンピュータビジョンとコンピュータグラフィックスパイプラインにおける重要なステップである。
トポロジカルアーティファクトを含むメッシュに取り組み、現在のアプローチによる仮定を破ることができる。
私たちは、しばしばトポロジカルなアーティファクトに悩まされる、フレームごとのマルチビュー再構築のような現実世界のシナリオに動機付けられています。
提案手法は, 従来のデータ駆動手法に頼らず, 3次元アライメント品質の大規模データセットでトレーニングした手法よりも, ノイズの多いフレーム単位のマルチビュー再構成を含む, トポロジカルアーチファクトの非等尺形状や形状に適用される。
論文 参考訳(メタデータ) (2025-09-08T16:29:44Z) - KP-RED: Exploiting Semantic Keypoints for Joint 3D Shape Retrieval and Deformation [87.23575166061413]
KP-RED は KeyPoint 主導の Retrieval and deformation フレームワークである。
オブジェクトスキャンを入力として、最も幾何学的に類似したCADモデルを共同で検索し、変形させる。
論文 参考訳(メタデータ) (2024-03-15T08:44:56Z) - DeFormer: Integrating Transformers with Deformable Models for 3D Shape
Abstraction from a Single Image [31.154786931081087]
本稿では,パラメータ化デフォルマブルモデルと統合された新しいバイチャネルトランスフォーマアーキテクチャを提案し,プリミティブのグローバルおよび局所的な変形を同時に推定する。
DeFormerは、最先端技術よりもより良い再構築精度を実現し、一貫したセマンティック対応で可視化し、解釈性を向上させる。
論文 参考訳(メタデータ) (2023-09-22T02:46:43Z) - DTF-Net: Category-Level Pose Estimation and Shape Reconstruction via
Deformable Template Field [29.42222066097076]
RGB-Depth画像ペアから、オープンワールドシーンの6Dポーズの推定と3D形状の再構築は困難である。
本稿では,オブジェクトカテゴリの暗黙的ニューラルネットワークに基づくポーズ推定と形状再構成のための新しいフレームワークであるDTF-Netを提案する。
論文 参考訳(メタデータ) (2023-08-04T10:35:40Z) - SPAMs: Structured Implicit Parametric Models [30.19414242608965]
本研究では,非剛体物体の動きを形状とポーズの部分的不整合表現に構造的に分解する変形可能なオブジェクト表現として,構造化単純パラメトリックモデル(SPAM)を学習する。
複雑な変形物体の動きの深度配列の復元と追跡において、我々の部分認識形状とポーズ理解が最先端のパフォーマンスに繋がることを示す実験を行った。
論文 参考訳(メタデータ) (2022-01-20T12:33:46Z) - Deep Implicit Templates for 3D Shape Representation [70.9789507686618]
深い暗黙表現における明示的な対応推論を支援する新しい3次元形状表現を提案する。
我々のキーとなる考え方は、テンプレートの暗黙関数の条件変形としてDIFを定式化することである。
提案手法は,形状の集合に対する一般的な暗黙テンプレートを学習するだけでなく,すべての形状を相互に同時に対応させることも可能であることを示す。
論文 参考訳(メタデータ) (2020-11-30T06:01:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。