論文の概要: T-Pixel2Mesh: Combining Global and Local Transformer for 3D Mesh Generation from a Single Image
- arxiv url: http://arxiv.org/abs/2403.13663v1
- Date: Wed, 20 Mar 2024 15:14:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 16:28:26.796589
- Title: T-Pixel2Mesh: Combining Global and Local Transformer for 3D Mesh Generation from a Single Image
- Title(参考訳): T-Pixel2Mesh: 単一画像からの3次元メッシュ生成のためのグローバルトランスとローカルトランスの組み合わせ
- Authors: Shijie Zhang, Boyan Jiang, Keke He, Junwei Zhu, Ying Tai, Chengjie Wang, Yinda Zhang, Yanwei Fu,
- Abstract要約: 本稿では,P2Mの粗大なアプローチにインスパイアされたトランスフォーマーブーストアーキテクチャT-Pixel2Meshを提案する。
具体的には,大域変換器を用いて局所的な形状を制御し,局所的な幾何学的詳細を洗練させる。
ShapeNetの実験では最先端の性能が実証され,実世界のデータでは一般化能力が示された。
- 参考スコア(独自算出の注目度): 84.08705684778666
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Pixel2Mesh (P2M) is a classical approach for reconstructing 3D shapes from a single color image through coarse-to-fine mesh deformation. Although P2M is capable of generating plausible global shapes, its Graph Convolution Network (GCN) often produces overly smooth results, causing the loss of fine-grained geometry details. Moreover, P2M generates non-credible features for occluded regions and struggles with the domain gap from synthetic data to real-world images, which is a common challenge for single-view 3D reconstruction methods. To address these challenges, we propose a novel Transformer-boosted architecture, named T-Pixel2Mesh, inspired by the coarse-to-fine approach of P2M. Specifically, we use a global Transformer to control the holistic shape and a local Transformer to progressively refine the local geometry details with graph-based point upsampling. To enhance real-world reconstruction, we present the simple yet effective Linear Scale Search (LSS), which serves as prompt tuning during the input preprocessing. Our experiments on ShapeNet demonstrate state-of-the-art performance, while results on real-world data show the generalization capability.
- Abstract(参考訳): Pixel2Mesh (P2M) は、粗いメッシュ変形によって単一のカラー画像から3次元形状を再構成するための古典的なアプローチである。
P2Mは可塑性大域形状を生成することができるが、そのグラフ畳み込みネットワーク(GCN)は、しばしば非常に滑らかな結果をもたらし、細かい幾何学的詳細が失われる。
さらに、P2Mは、隠蔽領域の非クレジブルな特徴を生成し、合成データから実世界の画像への領域ギャップに苦慮する。
これらの課題に対処するため,我々はP2Mの粗大なアプローチに触発された新しいトランスフォーマー型アーキテクチャT-Pixel2Meshを提案する。
具体的には,グローバルトランスフォーマーを用いて局所的な形状を制御し,局所的な幾何学的詳細をグラフベースの点アップサンプリングで徐々に洗練する。
実世界の再現性を高めるために,入力前処理時に即時チューニングを行うシンプルなLinear Scale Search (LSS) を提案する。
ShapeNetの実験では最先端の性能が実証され,実世界のデータでは一般化能力が示された。
関連論文リスト
- Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - Double-Shot 3D Shape Measurement with a Dual-Branch Network [14.749887303860717]
我々は、異なる構造光(SL)変調を処理するために、デュアルブランチ畳み込みニューラルネットワーク(CNN)-トランスフォーマーネットワーク(PDCNet)を提案する。
PDCNet内では、Transformerブランチを使用してフリンジイメージのグローバルな認識をキャプチャし、CNNブランチはスペックルイメージのローカル詳細を収集するように設計されている。
提案手法は, 自己生成データセット上で高精度な結果が得られる一方で, フランジオーダーの曖昧さを低減できることを示す。
論文 参考訳(メタデータ) (2024-07-19T10:49:26Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - 3Deformer: A Common Framework for Image-Guided Mesh Deformation [27.732389685912214]
ソース3Dメッシュにセマンティック素材とユーザが指定したセマンティックイメージが与えられた場合、3Deformerはソースメッシュを正確に編集することができる。
私たちの3Deformerは素晴らしい結果をもたらし、最先端のレベルに達することができます。
論文 参考訳(メタデータ) (2023-07-19T10:44:44Z) - Flattening-Net: Deep Regular 2D Representation for 3D Point Cloud
Analysis [66.49788145564004]
我々は、任意の幾何学と位相の不規則な3次元点雲を表現するために、Flattning-Netと呼ばれる教師なしのディープニューラルネットワークを提案する。
我々の手法は、現在の最先端の競合相手に対して好意的に機能する。
論文 参考訳(メタデータ) (2022-12-17T15:05:25Z) - Beyond 3DMM: Learning to Capture High-fidelity 3D Face Shape [77.95154911528365]
3Dモーフィブルモデル(3DMM)の適合性は、その強力な3D先行性のため、顔解析に広く有用である。
以前に再建された3次元顔は、微細な形状が失われるため、視差の低下に悩まされていた。
本論文は, パーソナライズされた形状が対応する人物と同一に見えるよう, パーソナライズされた形状を捉えるための完全な解を提案する。
論文 参考訳(メタデータ) (2022-04-09T03:46:18Z) - D$^2$IM-Net: Learning Detail Disentangled Implicit Fields from Single
Images [6.121310352120004]
本稿では,入力画像から幾何学的詳細を復元する最初の1視点3次元再構成ネットワークを提案する。
私たちの重要なアイデアは、ネットワークを訓練して、2つの機能からなる詳細に区切られた再構築を学ぶことです。
論文 参考訳(メタデータ) (2020-12-11T21:42:52Z) - Geo-PIFu: Geometry and Pixel Aligned Implicit Functions for Single-view
Human Reconstruction [97.3274868990133]
Geo-PIFuは、着物の単色画像から3Dメッシュを復元する方法である。
提案手法は,クエリポイントの符号化と潜在ボクセル特徴を用いたグローバルな形状の制約を両立させることで,人間のメッシュの形状歪みの低減と,競合する手法と比較して表面の細部の改善を図っている。
論文 参考訳(メタデータ) (2020-06-15T01:11:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。