論文の概要: HGGT: Robust and Flexible 3D Hand Mesh Reconstruction from Uncalibrated Images
- arxiv url: http://arxiv.org/abs/2603.23997v1
- Date: Wed, 25 Mar 2026 06:54:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.170249
- Title: HGGT: Robust and Flexible 3D Hand Mesh Reconstruction from Uncalibrated Images
- Title(参考訳): HGGT:未校正画像からのロバストでフレキシブルな3Dハンドメッシュ再構成
- Authors: Yumeng Liu, Xiao-Xiao Long, Marc Habermann, Xuanze Yang, Cheng Lin, Yuan Liu, Yuexin Ma, Wenping Wang, Ligang Liu,
- Abstract要約: 高忠実度3Dハンドジオメトリはコンピュータビジョンにおいて重要な課題である。
スケーラブルなアプリケーションは、正確性とデプロイメントの柔軟性の両方を必要とします。
本研究では、3Dハンドメッシュとカメラのポーズを非校正視点から推定するフィードフォワードアーキテクチャを提案する。
- 参考スコア(独自算出の注目度): 81.42866295265443
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recovering high-fidelity 3D hand geometry from images is a critical task in computer vision, holding significant value for domains such as robotics, animation and VR/AR. Crucially, scalable applications demand both accuracy and deployment flexibility, requiring the ability to leverage massive amounts of unstructured image data from the internet or enable deployment on consumer-grade RGB cameras without complex calibration. However, current methods face a dilemma. While single-view approaches are easy to deploy, they suffer from depth ambiguity and occlusion. Conversely, multi-view systems resolve these uncertainties but typically demand fixed, calibrated setups, limiting their real-world utility. To bridge this gap, we draw inspiration from 3D foundation models that learn explicit geometry directly from visual data. By reformulating hand reconstruction from arbitrary views as a visual-geometry grounded task, we propose a feed-forward architecture that, for the first time in literature, jointly infers 3D hand meshes and camera poses from uncalibrated views. Extensive evaluations show that our approach outperforms state-of-the-art benchmarks and demonstrates strong generalization to uncalibrated, in-the-wild scenarios. Here is the link of our project page: https://lym29.github.io/HGGT/.
- Abstract(参考訳): 画像から高忠実度3Dハンドジオメトリを復元することは、コンピュータビジョンにおいて重要な課題であり、ロボット工学、アニメーション、VR/ARといった領域において重要な価値を持っている。
重要なことは、スケーラブルなアプリケーションは精度とデプロイメントの柔軟性の両方を必要としており、インターネットから大量の非構造化イメージデータを活用したり、複雑なキャリブレーションなしでコンシューマグレードのRGBカメラへのデプロイを可能にする能力を必要としている。
しかし、現在の手法はジレンマに直面している。
シングルビューアプローチはデプロイが容易だが、深さの曖昧さと閉塞に悩まされている。
逆に、マルチビューシステムはこれらの不確実性を解消するが、通常は固定されたキャリブレーションされたセットアップを必要とし、現実のユーティリティを制限している。
このギャップを埋めるために、視覚データから直接明示的な幾何学を学習する3D基礎モデルからインスピレーションを得る。
任意の視点からの手振りを視覚的接地課題として再構成することにより,文献の中で初めて,非校正された視点から3次元のメッシュとカメラのポーズを共同で推論するフィードフォワードアーキテクチャを提案する。
広範に評価した結果,提案手法は最先端のベンチマークより優れており,非校正型インザワイルドシナリオへの強力な一般化が示されている。
https://lym29.github.io/HGGT/。
関連論文リスト
- RePose-NeRF: Robust Radiance Fields for Mesh Reconstruction under Noisy Camera Poses [0.5328562411561214]
マルチビュー画像から直接高品質で編集可能な3Dメッシュを再構築する堅牢なフレームワークを提案する。
我々のアプローチは、細かな幾何学的ディテールと外観をキャプチャする暗黙のシーン表現を学習しながら、カメラのポーズを共同で洗練する。
論文 参考訳(メタデータ) (2025-11-11T18:25:58Z) - One View, Many Worlds: Single-Image to 3D Object Meets Generative Domain Randomization for One-Shot 6D Pose Estimation [32.45730375971019]
単一の参照画像から、任意の見えない物体の6Dポーズを推定することは、現実世界のインスタンスの長い尾で動くロボティクスにとって重要である。
2つの重要なコンポーネントを通じてこれらの課題に取り組むパイプラインであるOnePoseViaGenを提案する。
実世界操作における本手法の有効性を検証し, 実物操作による頑健な器用握力の実証を行った。
論文 参考訳(メタデータ) (2025-09-09T17:59:02Z) - DreamGrasp: Zero-Shot 3D Multi-Object Reconstruction from Partial-View Images for Robotic Manipulation [12.812918371506209]
シーンの未観測部分を推論するフレームワークであるDreamGraspを紹介します。
粗い3D再構成、対照的な学習によるインスタンスセグメンテーション、テキスト誘導型インスタンスワイドリファインメントを組み合わせることで、DreamGraspは以前の方法の制限を回避することができる。
実験の結果,DreamGraspは正確なオブジェクト形状を復元するだけでなく,シーケンシャルなデクラッタリングや高い成功率のターゲット検索といった下流タスクもサポートしていることがわかった。
論文 参考訳(メタデータ) (2025-07-08T03:12:49Z) - E3D-Bench: A Benchmark for End-to-End 3D Geometric Foundation Models [78.1674905950243]
3次元幾何学基礎モデル(GFM)の総合ベンチマークを初めて提示する。
GFMは、単一のフィードフォワードパスで密度の高い3D表現を直接予測し、スローまたは未使用のカメラパラメータを不要にする。
我々は16の最先端GFMを評価し、タスクやドメイン間の長所と短所を明らかにした。
すべてのコード、評価スクリプト、処理されたデータは公開され、3D空間インテリジェンスの研究が加速される。
論文 参考訳(メタデータ) (2025-06-02T17:53:09Z) - EasyHOI: Unleashing the Power of Large Models for Reconstructing Hand-Object Interactions in the Wild [79.71523320368388]
本研究の目的は,手動物体のインタラクションを単一視点画像から再構築することである。
まず、手ポーズとオブジェクト形状を推定する新しいパイプラインを設計する。
最初の再構築では、事前に誘導された最適化方式を採用する。
論文 参考訳(メタデータ) (2024-11-21T16:33:35Z) - DUSt3R: Geometric 3D Vision Made Easy [8.471330244002564]
Dense and Unconstrained Stereo 3D Reconstruction of arbitrary image collections。
本定式化は単眼および両眼の再建症例を円滑に統一することを示す。
私たちの定式化はシーンの3Dモデルと深度情報を直接提供しますが、興味深いことに、シームレスに回復できます。
論文 参考訳(メタデータ) (2023-12-21T18:52:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。