論文の概要: Mix3R: Mixing Feed-forward Reconstruction and Generative 3D Priors for Joint Multi-view Aligned 3D Reconstruction and Pose Estimation
- arxiv url: http://arxiv.org/abs/2605.03359v1
- Date: Tue, 05 May 2026 04:37:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.768512
- Title: Mix3R: Mixing Feed-forward Reconstruction and Generative 3D Priors for Joint Multi-view Aligned 3D Reconstruction and Pose Estimation
- Title(参考訳): Mix3R: 複合多視点アライメント3次元再構成と姿勢推定のためのフィードフォワード再構成と生成3次元前処理
- Authors: Siyou Lin, Zhou Xue, Hongwen Zhang, Liang An, Dongping Li, Shaohui Jiao, Yebin Liu,
- Abstract要約: Mix3Rは、フィードフォワードと3D生成を混合した新しい3D再構成法である。
本手法は, 純粋な3次元生成法と比較して, 入力アライメントの優れた3次元形状を生成する。
- 参考スコア(独自算出の注目度): 43.71273997834654
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Recent trends in sparse-view 3D reconstruction have taken two different paths: feed-forward reconstruction that predicts pixel-aligned point maps without a complete geometry, and generative 3D reconstruction that generates complete geometry but often with poor input-alignment. We present Mix3R, a novel generative 3D reconstruction method which mixes feed-forward reconstruction and 3D generation into a single framework in an aligned manner. Mix3R generates a 3D shape in two stages: a sparse voxel generation stage and a textured geometry generation stage. Unlike pure generative methods, our first-stage generation jointly produces a coarse 3D structure (sparse voxels), per-view point maps and camera parameters aligned to that 3D structure. This is made possible by introducing a Mixture-of-Transformers architecture that inserts global self-attentions to a feed-forward reconstruction model and a 3D generative model, both pretrained on large-scale data. This design effectively retains the pretrained priors but enables better 2D-3D alignment. Based on the initial aligned generations of sparse 3D voxels and point maps, we compute an overlap-based attention bias that is directly added to another pretrained textured geometry generation model, enabling it to correctly place input textures onto generated shapes in a training-free manner. Our design brings mutual benefits to both feed-forward reconstruction and 3D generation: The feed-forward branch learns to ground its predictions to a generative 3D prior, and conversely, the 3D generation branch is conditioned on geometrically informative features from the feed-forward branch. As a result, our method produces 3D shapes with better input alignment compared with pure 3D generative methods, together with camera pose estimations more accurate than previous feed-forward reconstruction methods. Our project page is at https://jsnln.github.io/mix3r/
- Abstract(参考訳): 近年のスパースビュー3D再構成の傾向は, 完全幾何を伴わない画素整列点マップを予測できるフィードフォワード再構成と, 完全幾何を生成するが入力配向が貧弱な生成3D再構成の2つの異なる経路を採っている。
フィードフォワード再構成と3D生成を協調的に1つのフレームワークに混合する新しい3D再構成手法であるMix3Rを提案する。
Mix3Rはスパースボキセル生成段階とテクスチャ化された幾何学生成段階の2段階で3D形状を生成する。
純粋な生成法とは異なり、第1世代の世代は、粗い3D構造(スパースボクセル)、ビューポイントマップ、およびその3D構造に対応するカメラパラメータを共同で生成する。
これは、フィードフォワード再構成モデルと大規模データに基づいて事前学習された3次元生成モデルにグローバルな自己アテンションを挿入するMixture-of-Transformersアーキテクチャを導入することで実現されている。
この設計は、事前訓練を効果的に維持するが、より優れた2D-3Dアライメントを可能にする。
そこで本研究では,初期のスパルス3Dボクセルと点マップに基づいて,他のトレーニング済みテクスチャ生成モデルに直接付加される重なり合った注意バイアスを計算し,入力テクスチャを学習不要な方法で生成した形状に正しく配置することを可能にする。
フィードフォワード分岐は,フィードフォワード分岐から得られる幾何的情報的特徴に基づいて,その予測を生成3D以前に基礎付けることを学習する。
その結果, 従来のフィードフォワード再構成法よりも高精度なカメラポーズ推定法とともに, 純粋な3次元生成法と比較して, 入力整合性の良い3次元形状を生成することができた。
私たちのプロジェクトページはhttps://jsnln.github.io/mix3r/です。
関連論文リスト
- 3D-ReGen: A Unified 3D Geometry Regeneration Framework [101.26715424980996]
初期3次元形状を条件とした3次元再生装置である3D-ReGenを導入する。
3D-ReGenは、3D拡張、再構築、編集など、多くの有用なタスクをサポートする。
我々は3D-ReGenの幾何的整合性と微細な品質の両方を評価し、制御可能な3D生成における最先端性能を実現する。
論文 参考訳(メタデータ) (2026-04-30T17:18:05Z) - 3D-Fixer: Coarse-to-Fine In-place Completion for 3D Scenes from a Single Image [26.04490259188974]
合成3Dシーン生成のための新しいインプレース・コンプリート・パラダイムである3D-Fixerを紹介する。
明示的なポーズアライメントを必要とする以前の作品とは異なり、3D-Fixerはレイアウトの忠実さを維持するために空間アンカーとして断片化された幾何学を使用している。
これまでで最大のシーンレベルのデータセットであるARSG-110Kについて述べる。
論文 参考訳(メタデータ) (2026-04-06T04:11:09Z) - RnG: A Unified Transformer for Complete 3D Modeling from Partial Observations [70.83499963694238]
RnG(Reconstruction and Generation)は、再構成と生成を統合する新しいフィードフォワードトランスである。
可視的幾何学を再構築し、可視的でコヒーレントな不明瞭な幾何学と外観を生成する。
提案手法は, 一般化可能な3次元再構成と新しいビュー生成の両方において, 最先端の性能を実現する。
論文 参考訳(メタデータ) (2026-03-01T17:25:32Z) - CUPID: Pose-Grounded Generative 3D Reconstruction from a Single Image [32.39661961097445]
カメラのポーズ,3次元形状,テクスチャを1枚の2次元画像から推定する。
実験では、3dB以上のPSNRゲインと10%以上のチャンファー距離減少を伴い、3D再構成法を先導するキューピッドのパフォーマンスが実証された。
論文 参考訳(メタデータ) (2025-10-23T17:47:38Z) - VIST3A: Text-to-3D by Stitching a Multi-view Reconstruction Network to a Video Generator [69.72818094722186]
テキスト・ビデオ・ジェネレータは「デコーダ」として3次元再構成システムと組み合わせることができる
私たちは、VIST3Aという、まさにそれを行う一般的なフレームワークを紹介します。
ビデオジェネレータと3次元再構成モデルを用いたVIST3A手法の評価を行った。
論文 参考訳(メタデータ) (2025-10-15T11:55:08Z) - Shape from Semantics: 3D Shape Generation from Multi-View Semantics [30.969299308083723]
既存の3D再構成手法では, 3次元画像, 3次元点雲, 形状輪郭, 単一意味論などのガイダンスを用いて3次元表面を復元する。
図形や外観が、異なる視点から見ると、与えられたテキストの意味と一致した3Dモデルを作成することを目的として、新しい3Dモデリングタスク「Shape from Semantics'」を提案する。
論文 参考訳(メタデータ) (2025-02-01T07:51:59Z) - MeshFormer: High-Quality Mesh Generation with 3D-Guided Reconstruction Model [34.245635412589806]
MeshFormerはスパースビューリコンストラクションモデルで、3Dネイティブ構造、入力ガイダンス、トレーニングインスペクションを明示的に活用する。
2次元拡散モデルと統合することで、高速な単一像から3次元およびテキストから3次元のタスクを可能にする。
論文 参考訳(メタデータ) (2024-08-19T17:55:17Z) - GeoLRM: Geometry-Aware Large Reconstruction Model for High-Quality 3D Gaussian Generation [65.33726478659304]
GeoLRM(Geometry-Aware Large Restruction Model)は、512kガウスと21の入力画像で11GBのGPUメモリで高品質な資産を予測できる手法である。
従来の作品では、3D構造の本質的な空間性は無視されており、3D画像と2D画像の間の明示的な幾何学的関係は利用されていない。
GeoLRMは、3Dポイントを直接処理し、変形可能なクロスアテンション機構を使用する新しい3D対応トランスフォーマー構造を導入することで、これらの問題に対処する。
論文 参考訳(メタデータ) (2024-06-21T17:49:31Z) - NeuSDFusion: A Spatial-Aware Generative Model for 3D Shape Completion, Reconstruction, and Generation [52.772319840580074]
3D形状生成は、特定の条件や制約に固執する革新的な3Dコンテンツを作成することを目的としている。
既存の方法は、しばしば3Dの形状を局所化されたコンポーネントの列に分解し、各要素を分離して扱う。
本研究では2次元平面表現を利用した空間認識型3次元形状生成フレームワークを提案する。
論文 参考訳(メタデータ) (2024-03-27T04:09:34Z) - Fine Detailed Texture Learning for 3D Meshes with Generative Models [33.42114674602613]
本稿では,多視点画像と単視点画像の両方から高品質なテクスチャ3Dモデルを再構成する手法を提案する。
第1段階では正確な幾何学を学ぶことに集中し、第2段階では、生成的対向ネットワークを用いてテクスチャを学ぶことに集中する。
本手法は従来の手法に比べて優れた3次元テクスチャモデルを実現することを実証する。
論文 参考訳(メタデータ) (2022-03-17T14:50:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。