論文の概要: ControLRM: Fast and Controllable 3D Generation via Large Reconstruction Model
- arxiv url: http://arxiv.org/abs/2410.09592v1
- Date: Sat, 12 Oct 2024 16:47:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 13:35:29.824284
- Title: ControLRM: Fast and Controllable 3D Generation via Large Reconstruction Model
- Title(参考訳): ControLRM:大規模再構成モデルによる高速かつ制御可能な3次元生成
- Authors: Hongbin Xu, Weitao Chen, Zhipeng Zhou, Feng Xiao, Baigui Sun, Mike Zheng Shou, Wenxiong Kang,
- Abstract要約: 高速かつ制御可能な3D生成のためのエンドツーエンドフィードフォワードモデルであるControLRMを紹介する。
ControLRMは、2Dコンディションジェネレータ、コンディションエンコーディングトランス、トリプレーンデコーダトランスを備える。
条件訓練部では, トリプレーンデコーダをロックし, LRM内の数百万の3Dデータで事前訓練されたディープ・ロバストな符号化層を再利用する。
画像訓練部では, 3次元デコーダをアンロックして2次元表現と3次元表現の間に暗黙のアライメントを確立する。
- 参考スコア(独自算出の注目度): 36.34976357766257
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Despite recent advancements in 3D generation methods, achieving controllability still remains a challenging issue. Current approaches utilizing score-distillation sampling are hindered by laborious procedures that consume a significant amount of time. Furthermore, the process of first generating 2D representations and then mapping them to 3D lacks internal alignment between the two forms of representation. To address these challenges, we introduce ControLRM, an end-to-end feed-forward model designed for rapid and controllable 3D generation using a large reconstruction model (LRM). ControLRM comprises a 2D condition generator, a condition encoding transformer, and a triplane decoder transformer. Instead of training our model from scratch, we advocate for a joint training framework. In the condition training branch, we lock the triplane decoder and reuses the deep and robust encoding layers pretrained with millions of 3D data in LRM. In the image training branch, we unlock the triplane decoder to establish an implicit alignment between the 2D and 3D representations. To ensure unbiased evaluation, we curate evaluation samples from three distinct datasets (G-OBJ, GSO, ABO) rather than relying on cherry-picking manual generation. The comprehensive experiments conducted on quantitative and qualitative comparisons of 3D controllability and generation quality demonstrate the strong generalization capacity of our proposed approach.
- Abstract(参考訳): 近年の3次元生成手法の進歩にもかかわらず、制御性を達成することは依然として難しい問題である。
スコア蒸留サンプリングを利用した最近のアプローチは、かなりの時間を消費する手間のかかる手順によって妨げられている。
さらに、2D表現を最初に生成し、3Dにマッピングするプロセスは、2つの表現形式の間の内部的なアライメントを欠いている。
これらの課題に対処するために,大規模な再構成モデル(LRM)を用いた高速かつ制御可能な3D生成のためのエンドツーエンドフィードフォワードモデルであるControLRMを紹介した。
ControLRMは、2Dコンディションジェネレータ、コンディションエンコーディングトランス、トリプレーンデコーダトランスを備える。
モデルをゼロからトレーニングする代わりに、共同トレーニングフレームワークを提唱します。
条件訓練部では, トリプレーンデコーダをロックし, LRM内の数百万の3Dデータで事前訓練されたディープ・ロバストな符号化層を再利用する。
画像訓練部では, 3次元デコーダをアンロックして2次元表現と3次元表現の間に暗黙のアライメントを確立する。
偏りのない評価を確保するため, チェリーピッキングマニュアル生成に頼るのではなく, 3つの異なるデータセット(G-OBJ, GSO, ABO)からの評価サンプルをキュレートする。
3次元制御性と生成品質の定量的および定性的比較を行った総合的な実験は,提案手法の強い一般化能力を示している。
関連論文リスト
- TripoSG: High-Fidelity 3D Shape Synthesis using Large-Scale Rectified Flow Models [69.0220314849478]
TripoSGは入力画像に正確に対応して高忠実度3Dメッシュを生成することができる新しいパラダイムである。
結果として得られた3D形状は、高解像度の能力によって細部を拡大し、入力した現在年齢に対して例外的な忠実さを示す。
3Dジェネレーションの分野における進歩と革新を促進するため、我々はモデルを一般公開する。
論文 参考訳(メタデータ) (2025-02-10T16:07:54Z) - Taming Feed-forward Reconstruction Models as Latent Encoders for 3D Generative Models [7.485139478358133]
最近のAIベースの3Dコンテンツ作成は、フィードフォワード画像から3Dへの再構成アプローチと、2Dまたは3D監視でトレーニングされた3D生成モデルという、2つの経路に沿って大きく進化している。
本稿では,既存のフィードフォワード再構成手法が3次元生成モデルのトレーニングに有効な潜伏エンコーダとして有効であることを示し,これら2つのパラダイムをブリッジする。
論文 参考訳(メタデータ) (2024-12-31T21:23:08Z) - GEAL: Generalizable 3D Affordance Learning with Cross-Modal Consistency [50.11520458252128]
既存の3Dアベイランス学習手法は、注釈付きデータに制限があるため、一般化と堅牢性に苦慮している。
本稿では,大規模事前学習型2Dモデルを活用することで,3次元アベイランス学習の一般化と堅牢性を高めるための新しいフレームワークであるGEALを提案する。
GEALは、既存のメソッドと、新しいオブジェクトカテゴリ、および破損したデータにおいて、一貫して優れています。
論文 参考訳(メタデータ) (2024-12-12T17:59:03Z) - A Lesson in Splats: Teacher-Guided Diffusion for 3D Gaussian Splats Generation with 2D Supervision [65.33043028101471]
本研究では,ガウスプレートの拡散モデルであるSplatDiffusionを導入し,単一画像から3次元構造を生成する。
既存の方法は決定論的フィードフォワード予測に依存しており、2Dデータからの3D推論の本質的な曖昧さを扱う能力を制限する。
論文 参考訳(メタデータ) (2024-12-01T00:29:57Z) - Repeat and Concatenate: 2D to 3D Image Translation with 3D to 3D Generative Modeling [14.341099905684844]
本稿では,2次元X線と3次元CTライクな再構成が可能な2次元-3次元画像変換法について,簡単な手法で検討する。
我々は,潜伏空間内の複数の2次元ビューにまたがる情報を統合する既存のアプローチが,潜伏符号化中に貴重な信号情報を失うことを観察する。代わりに,2次元ビューを高チャネルの3次元ボリュームに繰り返して,簡単な3次元から3次元生成モデル問題として3次元再構成課題にアプローチする。
この方法では、再構成された3Dボリュームが、2D入力から貴重な情報を保持でき、Swin Uのチャネル状態間で渡される。
論文 参考訳(メタデータ) (2024-06-26T15:18:20Z) - NeRF-GAN Distillation for Efficient 3D-Aware Generation with
Convolutions [97.27105725738016]
GAN(Generative Adversarial Networks)のようなニューラルラジアンスフィールド(NeRF)と生成モデルの統合は、単一ビュー画像から3D認識生成を変換した。
提案手法は,ポーズ条件付き畳み込みネットワークにおいて,事前学習したNeRF-GANの有界遅延空間を再利用し,基礎となる3次元表現に対応する3D一貫性画像を直接生成する手法である。
論文 参考訳(メタデータ) (2023-03-22T18:59:48Z) - PoseTriplet: Co-evolving 3D Human Pose Estimation, Imitation, and
Hallucination under Self-supervision [102.48681650013698]
既存の自己監督型3次元ポーズ推定スキームは、学習を導くための弱い監督に大きく依存している。
そこで我々は,2D-3Dのポーズペアを明示的に生成し,監督を増強する,新しい自己監督手法を提案する。
これは、ポーズ推定器とポーズ幻覚器を併用して学習する強化学習ベースの模倣器を導入することで可能となる。
論文 参考訳(メタデータ) (2022-03-29T14:45:53Z) - Exemplar Fine-Tuning for 3D Human Model Fitting Towards In-the-Wild 3D
Human Pose Estimation [107.07047303858664]
3次元の地平線アノテーションを持つ大規模な人的データセットは、野生では入手が困難である。
既存の2Dデータセットを高品質な3Dポーズマッチングで拡張することで、この問題に対処する。
結果として得られるアノテーションは、3Dのプロシージャネットワークをスクラッチからトレーニングするのに十分である。
論文 参考訳(メタデータ) (2020-04-07T20:21:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。