論文の概要: LRM: Large Reconstruction Model for Single Image to 3D
- arxiv url: http://arxiv.org/abs/2311.04400v1
- Date: Wed, 8 Nov 2023 00:03:52 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-09 17:30:44.085009
- Title: LRM: Large Reconstruction Model for Single Image to 3D
- Title(参考訳): LRM: 単一画像から3Dへの大規模再構成モデル
- Authors: Yicong Hong and Kai Zhang and Jiuxiang Gu and Sai Bi and Yang Zhou and
Difan Liu and Feng Liu and Kalyan Sunkavalli and Trung Bui and Hao Tan
- Abstract要約: 本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
この高容量モデルと大規模トレーニングデータの組み合わせにより、我々のモデルは高度に一般化できる。
- 参考スコア(独自算出の注目度): 61.47357798633123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the first Large Reconstruction Model (LRM) that predicts the 3D
model of an object from a single input image within just 5 seconds. In contrast
to many previous methods that are trained on small-scale datasets such as
ShapeNet in a category-specific fashion, LRM adopts a highly scalable
transformer-based architecture with 500 million learnable parameters to
directly predict a neural radiance field (NeRF) from the input image. We train
our model in an end-to-end manner on massive multi-view data containing around
1 million objects, including both synthetic renderings from Objaverse and real
captures from MVImgNet. This combination of a high-capacity model and
large-scale training data empowers our model to be highly generalizable and
produce high-quality 3D reconstructions from various testing inputs including
real-world in-the-wild captures and images from generative models. Video demos
and interactable 3D meshes can be found on this website:
https://yiconghong.me/LRM/.
- Abstract(参考訳): 本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
カテゴリ固有の方法でShapeNetのような小規模データセットでトレーニングされた多くの従来の手法とは対照的に、LRMは5億の学習可能なパラメータを持つスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
我々は、Objaverseの合成レンダリングとMVImgNetの実際のキャプチャを含む約100万のオブジェクトを含む大規模なマルチビューデータに基づいて、エンドツーエンドでモデルをトレーニングする。
この高容量モデルと大規模トレーニングデータの組み合わせにより、我々のモデルは高度に一般化可能となり、実世界のインザワイルドキャプチャや生成モデルの画像を含む様々なテストインプットから高品質な3D再構成を生成できる。
ビデオデモと対話可能な3Dメッシュは、このWebサイトで見ることができる。
関連論文リスト
- L4GM: Large 4D Gaussian Reconstruction Model [99.82220378522624]
単視点ビデオ入力からアニメーションオブジェクトを生成する最初の4次元大規模再構成モデルであるL4GMを提案する。
私たちの成功の鍵は、キュレートされたレンダリングされたアニメーションオブジェクトを含む、新しいマルチビュービデオのデータセットです。
論文 参考訳(メタデータ) (2024-06-14T17:51:18Z) - Real3D: Scaling Up Large Reconstruction Models with Real-World Images [34.735198125706326]
Real3Dは、シングルビューの現実世界の画像を使ってトレーニングできる最初のLRMシステムである。
我々は,LRMをピクセルレベルで,セマンティックレベルで監視できる2つの教師なし損失を提案する。
In-the-wild画像から高品質なサンプルを収集する自動データキュレーション手法を開発した。
論文 参考訳(メタデータ) (2024-06-12T17:59:08Z) - M-LRM: Multi-view Large Reconstruction Model [37.46572626325514]
M-LRM (Multi-view Large Restruction Model) は,高品位な3次元形状を多視点から3次元的に効率的に再構成するように設計されている。
大型再構成モデルと比較すると、提案したM-LRMは128倍の128ドルの高解像度の3次元形状のNeRFを生成することができる。
論文 参考訳(メタデータ) (2024-06-11T18:29:13Z) - MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。
オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。
実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文 参考訳(メタデータ) (2024-06-10T15:26:48Z) - GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting [49.32327147931905]
単一A100 GPU上で2-4のスパース画像から高品質な3Dガウス像を0.23秒で予測できるスケーラブルな大規模再構成モデルGS-LRMを提案する。
このモデルは非常に単純なトランスフォーマーベースアーキテクチャを特徴とし、入力されたイメージをパッチ化し、プリミティブなマルチビュー画像トークンをトランスフォーマーブロックのシーケンスに渡す。
論文 参考訳(メタデータ) (2024-04-30T16:47:46Z) - InstantMesh: Efficient 3D Mesh Generation from a Single Image with Sparse-view Large Reconstruction Models [66.83681825842135]
InstantMeshは、単一のイメージからインスタント3Dメッシュを生成するためのフィードフォワードフレームワークである。
最新世代の品質とトレーニングのスケーラビリティが特徴だ。
InstantMeshのコード、重み、デモをすべてリリースし、3D生成AIのコミュニティに多大な貢献ができることを意図しています。
論文 参考訳(メタデータ) (2024-04-10T17:48:37Z) - VFusion3D: Learning Scalable 3D Generative Models from Video Diffusion Models [20.084928490309313]
本稿では,事前学習ビデオ拡散モデルを用いたスケーラブルな3次元生成モデル構築手法を提案する。
微調整により多視点生成能力を解放することにより、大規模な合成多視点データセットを生成し、フィードフォワード3D生成モデルを訓練する。
提案したモデルであるVFusion3Dは、ほぼ3Mの合成マルチビューデータに基づいて訓練され、単一の画像から数秒で3Dアセットを生成することができる。
論文 参考訳(メタデータ) (2024-03-18T17:59:12Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。