Fugu-MT 論文翻訳(概要): 3D-C2FT: Coarse-to-fine Transformer for Multi-view 3D Reconstruction

論文の概要: 3D-C2FT: Coarse-to-fine Transformer for Multi-view 3D Reconstruction

arxiv url: http://arxiv.org/abs/2205.14575v1
Date: Sun, 29 May 2022 06:01:42 GMT
ステータス: 翻訳完了
システム内更新日: 2022-05-31 13:26:09.753398
Title: 3D-C2FT: Coarse-to-fine Transformer for Multi-view 3D Reconstruction
Title（参考訳）: 3d-c2ft:多視点3次元再構成用粗細変換器
Authors: Leslie Ching Ow Tiong, Dick Sigmund, Andrew Beng Jin Teoh
Abstract要約: 本稿では,多視点特徴を符号化し,欠陥のある3Dオブジェクトを修正するための3次元粗大変換器(3D-C2FT)を提案する。 C2Fアテンション機構により、モデルは多視点情報の流れを学習し、3次元表面補正を粗くきめ細かな方法で合成することができる。実験の結果,3D-C2FTは顕著な結果を示し,これらのデータセット上での競合モデルよりも優れていた。
参考スコア（独自算出の注目度）: 14.89364490991374
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recently, the transformer model has been successfully employed for the multi-view 3D reconstruction problem. However, challenges remain on designing an attention mechanism to explore the multiview features and exploit their relations for reinforcing the encoding-decoding modules. This paper proposes a new model, namely 3D coarse-to-fine transformer (3D-C2FT), by introducing a novel coarse-to-fine(C2F) attention mechanism for encoding multi-view features and rectifying defective 3D objects. C2F attention mechanism enables the model to learn multi-view information flow and synthesize 3D surface correction in a coarse to fine-grained manner. The proposed model is evaluated by ShapeNet and Multi-view Real-life datasets. Experimental results show that 3D-C2FT achieves notable results and outperforms several competing models on these datasets.
Abstract（参考訳）: 近年,多視点3次元再構成問題に対してトランスフォーマーモデルが適用されている。しかし、マルチビュー機能を探究するためのアテンションメカニズムの設計や、エンコーディング・デコーディングモジュールの強化にそれらの関係を利用する上での課題が残っている。本稿では、多視点特徴を符号化し、欠陥のある3Dオブジェクトを修正するための新しい粗粒度(C2F)アテンション機構を導入することで、3D粗粒度変換器(3D-C2FT)を提案する。 C2Fアテンション機構により、モデルは多視点情報の流れを学習し、3次元表面補正を粗くきめ細かな方法で合成することができる。提案モデルはShapeNetとMulti-view Real-lifeデータセットを用いて評価する。実験の結果,3D-C2FTは顕著な結果を示し,これらのデータセット上での競合モデルよりも優れていた。

関連論文リスト

CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。 CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文参考訳（メタデータ） (2025-03-11T03:08:43Z)
View Transformation Robustness for Multi-View 3D Object Reconstruction with Reconstruction Error-Guided View Selection [19.07686691657438]
ビュートランスフォーメーション・ロバストネス(VTR)は,深層学習に基づく多視点3次元オブジェクト再構成モデルにおいて重要である。本稿では,3次元予測の空間分布を考慮した再構成誤り誘導ビュー選択法を提案する。提案手法は、最先端の3D再構成法や、他のビュー変換ロバスト性比較法よりも優れている。
論文参考訳（メタデータ） (2024-12-16T03:54:08Z)
GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。 GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文参考訳（メタデータ） (2024-12-12T17:59:03Z)
DSplats: 3D Generation by Denoising Splats-Based Multiview Diffusion Models [67.50989119438508]
本稿では,ガウスをベースとしたレコンストラクタを用いて,リアルな3Dアセットを生成することで,マルチビュー画像を直接認識するDSplatを紹介した。実験の結果,DSplatsは高品質で空間的に一貫した出力を生成できるだけでなく,単一画像から3次元再構成への新たな標準も設定できることがわかった。
論文参考訳（メタデータ） (2024-12-11T07:32:17Z)
MVBoost: Boost 3D Reconstruction with Multi-View Refinement [41.46372172076206]
多様な3Dデータセットの不足は、3D再構成モデルの限定的な一般化能力をもたらす。擬似GTデータを生成し,多視点補正(MVBoost)により3次元再構成を促進する新しいフレームワークを提案する。
論文参考訳（メタデータ） (2024-11-26T08:55:20Z)
Self-augmented Gaussian Splatting with Structure-aware Masks for Sparse-view 3D Reconstruction [9.953394373473621]
スパースビュー3D再構成は、コンピュータビジョンにおいて非常に難しい課題である。本稿では,構造対応マスクにより拡張された自己拡張型粗大なガウススプラッティングパラダイムを提案する。本手法は,知覚的品質と効率の両面において,スパース入力ビューの最先端性能を実現する。
論文参考訳（メタデータ） (2024-08-09T03:09:22Z)
Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling [14.341099905684844]
本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
論文参考訳（メタデータ） (2024-06-26T15:18:20Z)
MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文参考訳（メタデータ） (2024-06-10T15:26:48Z)
DiffTF++: 3D-aware Diffusion Transformer for Large-Vocabulary 3D Generation [53.20147419879056]
拡散型フィードフォワードフレームワークを導入し,単一モデルで課題に対処する。 TransFormerを用いた3D対応拡散モデルを構築し,より強力な3D生成,すなわちDiffTF++を提案する。 ShapeNetとOmniObject3Dの実験は、提案したモジュールの有効性を確実に実証している。
論文参考訳（メタデータ） (2024-05-13T17:59:51Z)
SMPLer: Taming Transformers for Monocular 3D Human Shape and Pose Estimation [74.07836010698801]
この問題に対処するために,SMPLベースのトランスフォーマーフレームワーク(SMPLer)を提案する。 SMPLerは、切り離された注意操作とSMPLベースのターゲット表現の2つの重要な要素を組み込んでいる。 SMPLerの既存の3次元人体形状に対する効果とポーズ推定方法の実証実験を行った。
論文参考訳（メタデータ） (2024-04-23T17:59:59Z)
MVD-Fusion: Single-view 3D via Depth-consistent Multi-view Generation [54.27399121779011]
本稿では,多視点RGB-D画像の生成モデルを用いて,単視点3次元推論を行うMVD-Fusionを提案する。提案手法は,蒸留に基づく3D推論や先行多視点生成手法など,最近の最先端技術と比較して,より正確な合成を実現することができることを示す。
論文参考訳（メタデータ） (2024-04-04T17:59:57Z)
GeoGS3D: Single-view 3D Reconstruction via Geometric-aware Diffusion Model and Gaussian Splatting [81.03553265684184]
単視点画像から詳細な3Dオブジェクトを再構成するフレームワークであるGeoGS3Dを紹介する。本稿では,GDS(Gaussian Divergence Significance)という新しい指標を提案する。実験により、GeoGS3Dはビュー間で高い一貫性を持つ画像を生成し、高品質な3Dオブジェクトを再構成することを示した。
論文参考訳（メタデータ） (2024-03-15T12:24:36Z)
3D Face Reconstruction Using A Spectral-Based Graph Convolution Encoder [3.749406324648861]
本稿では,既存の2次元機能と3次元機能を統合し,モデル学習プロセスを導く革新的なアプローチを提案する。我々のモデルはデータセットの組み合わせから2D-3Dデータペアを用いて訓練され、NoWベンチマークで最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-03-08T11:09:46Z)
Large-Vocabulary 3D Diffusion Model with Transformer [57.076986347047]
本稿では,1つの生成モデルを用いて実世界の3Dオブジェクトの大規模カテゴリを合成するための拡散型フィードフォワードフレームワークを提案する。本稿では,三面体を用いた3次元拡散モデル(TransFormer, DiffTF)を提案する。 ShapeNetとOmniObject3Dの実験は、単一のDiffTFモデルが最先端の大語彙3Dオブジェクト生成性能を達成することを確実に実証している。
論文参考訳（メタデータ） (2023-09-14T17:59:53Z)
PlankAssembly: Robust 3D Reconstruction from Three Orthographic Views with Learnt Shape Programs [24.09764733540401]
本研究では、3つの正書法からの2次元線図を3次元CADモデルに自動変換する手法を開発した。我々はトランスフォーマーに基づくシーケンス生成モデルにおける注意機構を利用して、入力と出力の間の柔軟なマッピングを学習する。提案手法は,入力がノイズや不完全である場合,既存の手法よりも大幅に優れる。
論文参考訳（メタデータ） (2023-08-10T17:59:34Z)
Multi-view 3D Reconstruction with Transformer [34.756336770583154]
シーケンス・トゥ・シークエンス予測問題として,マルチビュー3D再構成を再構成する。本稿では,3次元ボリューム変換器(VolT)という新しいフレームワークを提案する。パラメータの少ないマルチビュー再構成で、最新鋭の精度を実現。
論文参考訳（メタデータ） (2021-03-24T03:14:49Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。