論文の概要: LRM: Large Reconstruction Model for Single Image to 3D
- arxiv url: http://arxiv.org/abs/2311.04400v2
- Date: Sat, 9 Mar 2024 10:47:51 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 15:30:50.297321
- Title: LRM: Large Reconstruction Model for Single Image to 3D
- Title(参考訳): LRM: 単一画像から3Dへの大規模再構成モデル
- Authors: Yicong Hong and Kai Zhang and Jiuxiang Gu and Sai Bi and Yang Zhou and
Difan Liu and Feng Liu and Kalyan Sunkavalli and Trung Bui and Hao Tan
- Abstract要約: 本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
- 参考スコア(独自算出の注目度): 61.47357798633123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the first Large Reconstruction Model (LRM) that predicts the 3D
model of an object from a single input image within just 5 seconds. In contrast
to many previous methods that are trained on small-scale datasets such as
ShapeNet in a category-specific fashion, LRM adopts a highly scalable
transformer-based architecture with 500 million learnable parameters to
directly predict a neural radiance field (NeRF) from the input image. We train
our model in an end-to-end manner on massive multi-view data containing around
1 million objects, including both synthetic renderings from Objaverse and real
captures from MVImgNet. This combination of a high-capacity model and
large-scale training data empowers our model to be highly generalizable and
produce high-quality 3D reconstructions from various testing inputs, including
real-world in-the-wild captures and images created by generative models. Video
demos and interactable 3D meshes can be found on our LRM project webpage:
https://yiconghong.me/LRM.
- Abstract(参考訳): 本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。
カテゴリ固有の方法でShapeNetのような小規模データセットでトレーニングされた多くの従来の手法とは対照的に、LRMは5億の学習可能なパラメータを持つスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。
我々は、Objaverseの合成レンダリングとMVImgNetの実際のキャプチャを含む約100万のオブジェクトを含む大規模なマルチビューデータに基づいて、エンドツーエンドでモデルをトレーニングする。
この高容量モデルと大規模トレーニングデータの組み合わせは、当社のモデルを高度に一般化し、実世界のインザワイルドキャプチャや生成モデルによるイメージなど、さまざまなテスト入力から高品質な3d再構成を可能にする。
ビデオデモと対話可能な3Dメッシュは、当社のLRMプロジェクトのWebページで見ることができる。
関連論文リスト
- CRM: Single Image to 3D Textured Mesh with Convolutional Reconstruction
Model [37.75256020559125]
本稿では,高忠実度フィードフォワード画像から3次元画像生成モデルを提案する。
ネットワーク設計に幾何学的事前情報を統合する必要性を強調した。
我々のモデルは、テストタイムの最適化なしに、画像から10秒で高忠実なテクスチャメッシュを提供する。
論文 参考訳(メタデータ) (2024-03-08T04:25:29Z) - Pushing Auto-regressive Models for 3D Shape Generation at Capacity and
Scalability [121.44324465222498]
自己回帰モデルでは,格子空間における関節分布をモデル化することにより,2次元画像生成において顕著な結果が得られた。
自動回帰モデルを3次元領域に拡張し,キャパシティとスケーラビリティを同時に向上することにより,3次元形状生成の強力な能力を求める。
論文 参考訳(メタデータ) (2024-02-19T15:33:09Z) - LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content
Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。
我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文 参考訳(メタデータ) (2024-02-07T17:57:03Z) - Template-Free Single-View 3D Human Digitalization with Diffusion-Guided LRM [29.13412037370585]
本稿では,拡散誘導フィードフォワードモデルであるHuman-LRMを提案する。
本手法は,例えばSMPLなどのテンプレートを使わずにヒトを捕獲し,リッチでリアルなディテールで咬合部を効果的に増強することができる。
論文 参考訳(メタデータ) (2024-01-22T18:08:22Z) - NViST: In the Wild New View Synthesis from a Single Image with
Transformers [9.878414824892783]
単一画像からの新規ビュー合成のためのトランスフォーマーモデルであるNViSTを提案する。
複雑な背景を持つWildイメージの大規模なデータセットに基づいてトレーニングされる。
MVImgNetの未確認オブジェクトやカテゴリ,さらにはカジュアル電話のキャプチャ結果も示す。
論文 参考訳(メタデータ) (2023-12-13T23:41:17Z) - PF-LRM: Pose-Free Large Reconstruction Model for Joint Pose and Shape
Prediction [77.89935657608926]
画像から3Dオブジェクトを再構成するためのPF-LRM(Pose-Free Large Restruction Model)を提案する。
PF-LRMは1つのA100 GPU上で1.3秒で相対カメラのポーズを同時に推定する。
論文 参考訳(メタデータ) (2023-11-20T18:57:55Z) - DMV3D: Denoising Multi-View Diffusion using 3D Large Reconstruction
Model [86.37536249046943]
textbfDMV3Dはトランスフォーマーに基づく3次元大規模再構成モデルを用いた新しい3D生成手法である。
再構成モデルでは, 3面のNeRF表現を組み込んで, ノイズの多い多視点画像をNeRF再構成とレンダリングで識別することができる。
論文 参考訳(メタデータ) (2023-11-15T18:58:41Z) - HoloDiffusion: Training a 3D Diffusion Model using 2D Images [71.1144397510333]
我々は,2次元画像のみを監督のために配置した,エンドツーエンドでトレーニング可能な新しい拡散装置を導入する。
我々の拡散モデルはスケーラブルで、頑健に訓練されており、既存の3次元生成モデルへのアプローチに対して、サンプルの品質と忠実さの点で競争力があることを示す。
論文 参考訳(メタデータ) (2023-03-29T07:35:56Z) - Leveraging MoCap Data for Human Mesh Recovery [27.76352018682937]
本研究では,3次元モーションキャプチャ(MoCap)データからのポーズが,画像ベースおよびビデオベースのヒューマンメッシュ回復手法の改善に有効かどうかを検討する。
また,MoCapデータからの合成レンダリングによる微調整画像ベースモデルの性能向上が期待できる。
ポーズパラメータを直接回帰するトランスフォーマーモジュールであるPoseBERTを導入し、マスク付きモデリングでトレーニングする。
論文 参考訳(メタデータ) (2021-10-18T12:43:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。