論文の概要: HORT: Monocular Hand-held Objects Reconstruction with Transformers
- arxiv url: http://arxiv.org/abs/2503.21313v1
- Date: Thu, 27 Mar 2025 09:45:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-28 12:52:35.740996
- Title: HORT: Monocular Hand-held Objects Reconstruction with Transformers
- Title(参考訳): HORT:変圧器を用いた単眼ハンドヘルドオブジェクト再構成
- Authors: Zerui Chen, Rolandos Alexandros Potamias, Shizhe Chen, Cordelia Schmid,
- Abstract要約: モノクロ画像から手持ちの物体を3Dで再構成することは、コンピュータビジョンにおいて重要な課題である。
ハンドヘルドオブジェクトの高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,高速な推測速度で最先端の精度を達成し,画像の幅を最適化する。
- 参考スコア(独自算出の注目度): 61.36376511119355
- License:
- Abstract: Reconstructing hand-held objects in 3D from monocular images remains a significant challenge in computer vision. Most existing approaches rely on implicit 3D representations, which produce overly smooth reconstructions and are time-consuming to generate explicit 3D shapes. While more recent methods directly reconstruct point clouds with diffusion models, the multi-step denoising makes high-resolution reconstruction inefficient. To address these limitations, we propose a transformer-based model to efficiently reconstruct dense 3D point clouds of hand-held objects. Our method follows a coarse-to-fine strategy, first generating a sparse point cloud from the image and progressively refining it into a dense representation using pixel-aligned image features. To enhance reconstruction accuracy, we integrate image features with 3D hand geometry to jointly predict the object point cloud and its pose relative to the hand. Our model is trained end-to-end for optimal performance. Experimental results on both synthetic and real datasets demonstrate that our method achieves state-of-the-art accuracy with much faster inference speed, while generalizing well to in-the-wild images.
- Abstract(参考訳): モノクロ画像から3Dでハンドヘルドオブジェクトを再構築することは、コンピュータビジョンにおいて重要な課題である。
既存のほとんどのアプローチは暗黙の3D表現に依存しており、過度に滑らかな再構築をもたらし、明示的な3D形状を生成するのに時間がかかる。
より最近の手法では、拡散モデルを用いて点雲を直接再構成するが、マルチステップのデノイングは高分解能な再構成を非効率にする。
これらの制約に対処するため,手持ち物体の高密度な3次元点群を効率的に再構成するトランスフォーマーモデルを提案する。
提案手法は,まず画像から粗い点雲を生成し,画素に整列した画像特徴を用いた濃密な表現へと徐々に精製する,粗大な戦略に従う。
再構成精度を向上させるため,画像特徴と3次元手指形状を統合し,対象点の雲とその手に対するポーズを共同で予測する。
我々のモデルは最適性能のためにエンドツーエンドで訓練されている。
合成データと実データの両方を用いた実験結果から,提案手法は高速な推論速度で最先端の精度を達成できるとともに,画像の高速化にも有効であることがわかった。
関連論文リスト
- Hyperbolic-constraint Point Cloud Reconstruction from Single RGB-D Images [19.23499128175523]
我々は3次元点雲再構成に双曲空間を導入し、低歪みの点雲における複雑な階層構造を表現・理解できるようにする。
我々のモデルは既存のモデルよりも優れており、アブレーション研究は我々のモデルとその構成要素の重要性を実証している。
論文 参考訳(メタデータ) (2024-12-12T08:27:39Z) - GSD: View-Guided Gaussian Splatting Diffusion for 3D Reconstruction [52.04103235260539]
単一視点からの3次元オブジェクト再構成のためのガウススプティング表現に基づく拡散モデル手法を提案する。
モデルはGS楕円体の集合で表される3Dオブジェクトを生成することを学習する。
最終的な再構成されたオブジェクトは、高品質な3D構造とテクスチャを持ち、任意のビューで効率的にレンダリングできる。
論文 参考訳(メタデータ) (2024-07-05T03:43:08Z) - LAM3D: Large Image-Point-Cloud Alignment Model for 3D Reconstruction from Single Image [64.94932577552458]
大規模再構成モデルは、単一または複数入力画像から自動3Dコンテンツ生成の領域において大きな進歩を遂げている。
彼らの成功にもかかわらず、これらのモデルはしばしば幾何学的不正確な3Dメッシュを生成し、画像データからのみ3D形状を推論する固有の課題から生まれた。
生成した3Dメッシュの忠実度を高めるために3Dポイントクラウドデータを利用する新しいフレームワークであるLarge Image and Point Cloud Alignment Model (LAM3D)を導入する。
論文 参考訳(メタデータ) (2024-05-24T15:09:12Z) - ComboVerse: Compositional 3D Assets Creation Using Spatially-Aware Diffusion Guidance [76.7746870349809]
複雑な構成で高品質な3Dアセットを生成する3D生成フレームワークであるComboVerseについて,複数のモデルを組み合わせることを学習して紹介する。
提案手法は,標準スコア蒸留法と比較して,物体の空間的アライメントを重視している。
論文 参考訳(メタデータ) (2024-03-19T03:39:43Z) - $PC^2$: Projection-Conditioned Point Cloud Diffusion for Single-Image 3D
Reconstruction [97.06927852165464]
単一のRGB画像から物体の3次元形状を再構築することは、コンピュータビジョンにおける長年の課題である。
条件付き偏光拡散プロセスによりスパース点雲を生成する単一像3次元再構成法を提案する。
論文 参考訳(メタデータ) (2023-02-21T13:37:07Z) - Flow-based GAN for 3D Point Cloud Generation from a Single Image [16.04710129379503]
本稿では,任意の解像度の点群をサンプリングするためのフローベース明示的生成モデルを継承する,ハイブリッドな明示的生成モデルを提案する。
大規模合成データセットShapeNetについて評価し,提案手法の優れた性能を示す実験結果を得た。
論文 参考訳(メタデータ) (2022-10-08T17:58:20Z) - Shape from Blur: Recovering Textured 3D Shape and Motion of Fast Moving
Objects [115.71874459429381]
本研究では, 物体の3次元形状, テクスチャ, 動きを単一動画像から共同で再構成する新しい課題について述べる。
従来の手法では2次元画像領域でのみ遅延問題に対処するが、3次元領域における全ての物体特性の厳密なモデリングは任意の物体の動きの正確な記述を可能にする。
論文 参考訳(メタデータ) (2021-06-16T13:18:08Z) - An Effective Loss Function for Generating 3D Models from Single 2D Image
without Rendering [0.0]
微分レンダリングは、シングルビュー3Dレコンストラクションに適用できる非常に成功した技術である。
電流は、ある3d再構成対象のレンダリング画像と、与えられたマッチング視点からの接地画像との間のピクセルによる損失を利用して、3d形状のパラメータを最適化する。
再構成された3次元点群の投影が地上真理物体のシルエットをどの程度覆うかを評価する新しい効果的な損失関数を提案する。
論文 参考訳(メタデータ) (2021-03-05T00:02:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。