論文の概要: iLRM: An Iterative Large 3D Reconstruction Model
- arxiv url: http://arxiv.org/abs/2507.23277v1
- Date: Thu, 31 Jul 2025 06:33:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:09.210208
- Title: iLRM: An Iterative Large 3D Reconstruction Model
- Title(参考訳): iLRM: 反復型大型3D再構成モデル
- Authors: Gyeongjin Kang, Seungtae Nam, Xiangyu Sun, Sameh Khamis, Abdelrahman Mohamed, Eunbyung Park,
- Abstract要約: 本稿では,反復的改良機構を用いて3次元ガウス表現を生成する反復的大規模3次元再構成モデル(iLRM)を提案する。
RE10KやDL3DVといった広く使われているデータセットの実験結果から、iLRMは復元品質と速度の両方で既存の手法より優れていることが示されている。
- 参考スコア(独自算出の注目度): 21.98670485640184
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Feed-forward 3D modeling has emerged as a promising approach for rapid and high-quality 3D reconstruction. In particular, directly generating explicit 3D representations, such as 3D Gaussian splatting, has attracted significant attention due to its fast and high-quality rendering, as well as numerous applications. However, many state-of-the-art methods, primarily based on transformer architectures, suffer from severe scalability issues because they rely on full attention across image tokens from multiple input views, resulting in prohibitive computational costs as the number of views or image resolution increases. Toward a scalable and efficient feed-forward 3D reconstruction, we introduce an iterative Large 3D Reconstruction Model (iLRM) that generates 3D Gaussian representations through an iterative refinement mechanism, guided by three core principles: (1) decoupling the scene representation from input-view images to enable compact 3D representations; (2) decomposing fully-attentional multi-view interactions into a two-stage attention scheme to reduce computational costs; and (3) injecting high-resolution information at every layer to achieve high-fidelity reconstruction. Experimental results on widely used datasets, such as RE10K and DL3DV, demonstrate that iLRM outperforms existing methods in both reconstruction quality and speed. Notably, iLRM exhibits superior scalability, delivering significantly higher reconstruction quality under comparable computational cost by efficiently leveraging a larger number of input views.
- Abstract(参考訳): フィードフォワード3Dモデリングは、迅速かつ高品質な3D再構成のための有望なアプローチとして登場した。
特に、3Dガウススプラッティングのような明示的な3D表現を直接生成することは、高速かつ高品質なレンダリングと多くの応用によって大きな注目を集めている。
しかし、多くの最先端の手法は、主にトランスフォーマーアーキテクチャをベースとしており、複数の入力ビューからの画像トークンをまたいで完全に注意を払っており、ビュー数や画像解像度が増加するにつれて計算コストが禁じられるため、深刻なスケーラビリティの問題に悩まされている。
スケーラブルで効率的なフィードフォワード3D再構成に向けて,(1)入力ビュー画像からシーン表現を分離してコンパクトな3D表現を実現する,(2)計算コストを削減するために2段階のアテンションスキームに完全アテンショナルなマルチビューインタラクションを分解する,(3)高精細な情報を各層に注入して高精細な再構成を実現する,という3つの基本原理によって導かれる,反復型大規模3D再構成モデル(iLRM)を導入する。
RE10KやDL3DVのような広く使われているデータセットの実験結果から、iLRMは復元品質と速度の両方で既存の手法より優れていることが示されている。
特に、iLRMは優れたスケーラビリティを示し、より多くの入力ビューを効率的に活用することにより、同等の計算コストで大幅に高い再構成品質を実現する。
関連論文リスト
- CDI3D: Cross-guided Dense-view Interpolation for 3D Reconstruction [25.468907201804093]
大規模再構成モデル (LRM) は, 2次元拡散モデルにより生成された多視点画像を利用して3次元コンテンツを抽出する際の大きな可能性を示している。
しかし、2次元拡散モデルはしばしば、強い多視点一貫性を持つ高密度画像を生成するのに苦労する。
CDI3Dは,高画質で高画質な3D画像生成を実現するためのフィードフォワードフレームワークである。
論文 参考訳(メタデータ) (2025-03-11T03:08:43Z) - Fast3R: Towards 3D Reconstruction of 1000+ Images in One Forward Pass [68.78222900840132]
我々は,DUSt3Rに並列に複数のビューを処理することで,効率よくスケーラブルな3D再構成を実現する新しい多視点一般化であるFast3Rを提案する。
Fast3Rは最先端のパフォーマンスを示し、推論速度とエラーの蓄積が大幅に改善された。
論文 参考訳(メタデータ) (2025-01-23T18:59:55Z) - Multi-View Large Reconstruction Model via Geometry-Aware Positional Encoding and Attention [54.66152436050373]
本稿では,M-LRM(Multi-view Large Restruction Model)を提案する。
具体的には、M-LRMが入力画像から情報を正確にクエリできるマルチビュー整合型クロスアテンション方式を提案する。
従来の手法と比較して,提案手法は高忠実度の3次元形状を生成することができる。
論文 参考訳(メタデータ) (2024-06-11T18:29:13Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。