Fugu-MT 論文翻訳(概要): L4GM: Large 4D Gaussian Reconstruction Model

論文の概要: L4GM: Large 4D Gaussian Reconstruction Model

arxiv url: http://arxiv.org/abs/2406.10324v1
Date: Fri, 14 Jun 2024 17:51:18 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-19 00:52:09.749645
Title: L4GM: Large 4D Gaussian Reconstruction Model
Title（参考訳）: L4GM:大型4Dガウスモデル
Authors: Jiawei Ren, Kevin Xie, Ashkan Mirzaei, Hanxue Liang, Xiaohui Zeng, Karsten Kreis, Ziwei Liu, Antonio Torralba, Sanja Fidler, Seung Wook Kim, Huan Ling,
Abstract要約: 単視点ビデオ入力からアニメーションオブジェクトを生成する最初の4次元大規模再構成モデルであるL4GMを提案する。私たちの成功の鍵は、キュレートされたレンダリングされたアニメーションオブジェクトを含む、新しいマルチビュービデオのデータセットです。
参考スコア（独自算出の注目度）: 99.82220378522624
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We present L4GM, the first 4D Large Reconstruction Model that produces animated objects from a single-view video input -- in a single feed-forward pass that takes only a second. Key to our success is a novel dataset of multiview videos containing curated, rendered animated objects from Objaverse. This dataset depicts 44K diverse objects with 110K animations rendered in 48 viewpoints, resulting in 12M videos with a total of 300M frames. We keep our L4GM simple for scalability and build directly on top of LGM, a pretrained 3D Large Reconstruction Model that outputs 3D Gaussian ellipsoids from multiview image input. L4GM outputs a per-frame 3D Gaussian Splatting representation from video frames sampled at a low fps and then upsamples the representation to a higher fps to achieve temporal smoothness. We add temporal self-attention layers to the base LGM to help it learn consistency across time, and utilize a per-timestep multiview rendering loss to train the model. The representation is upsampled to a higher framerate by training an interpolation model which produces intermediate 3D Gaussian representations. We showcase that L4GM that is only trained on synthetic data generalizes extremely well on in-the-wild videos, producing high quality animated 3D assets.
Abstract（参考訳）: L4GMは、シングルビューのビデオ入力からアニメーションオブジェクトを生成する最初の4D大再構成モデルです。私たちの成功の鍵は、Objaverseのキュレーションされたアニメーションオブジェクトを含む、新しいマルチビュービデオのデータセットです。このデータセットは、48の視点でレンダリングされた110Kのアニメーションを持つ44万の多様なオブジェクトを描いており、合計で3億のフレームを持つ1200万のビデオである。 L4GMは,マルチビュー画像入力から3次元ガウス楕円体を出力する事前訓練済みの3次元大規模再構成モデルである。 L4GMは、低fpsでサンプリングされたビデオフレームからフレームごとの3Dガウス分割表現を出力し、その表現を高fpsにアップサンプリングして時間的滑らか性を実現する。時間的整合性学習を支援するため、ベースLGMに時間的自己アテンション層を追加し、タイムステップごとのマルチビューレンダリング損失を利用してモデルをトレーニングします。この表現は、中間3次元ガウス表現を生成する補間モデルを訓練することにより、より高いフレームレートにアップサンプリングされる。合成データのみを訓練したL4GMは、高品質なアニメーション3Dアセットを制作し、Wildビデオ上で非常によく一般化していることを示す。

関連論文リスト

CAT4D: Create Anything in 4D with Multi-View Video Diffusion Models [98.03734318657848]
本研究では,モノクロ映像から4次元(ダイナミックな3D)シーンを生成するCAT4Dを提案する。我々は、多様なデータセットの組み合わせに基づいて訓練された多視点ビデオ拡散モデルを活用して、新しいビュー合成を実現する。新規なビュー合成と動的シーン再構成ベンチマークにおける競合性能を実証する。
論文参考訳（メタデータ） (2024-11-27T18:57:16Z)
Animate3D: Animating Any 3D Model with Multi-view Video Diffusion [47.05131487114018]
Animate3Dは静的な3Dモデルをアニメーションするための新しいフレームワークである。本研究では,3Dオブジェクトのアニメーション化に多視点ビデオ拡散プリミティブを活用するために,再構成と4Dスコア蒸留サンプリング(4D-SDS)を組み合わせたフレームワークを提案する。
論文参考訳（メタデータ） (2024-07-16T05:35:57Z)
MVGamba: Unify 3D Content Generation as State Space Sequence Modeling [150.80564081817786]
本稿では,多視点ガウス再構成器を備えた一般軽量ガウス再構成モデルMVGambaを紹介する。オフザディテールのマルチビュー拡散モデルを統合することで、MVGambaは単一の画像、スパース画像、テキストプロンプトから3D生成タスクを統一する。実験により、MVGambaは、すべての3Dコンテンツ生成シナリオで最先端のベースラインを約0.1タイムのモデルサイズで上回ります。
論文参考訳（メタデータ） (2024-06-10T15:26:48Z)
SuperGaussian: Repurposing Video Models for 3D Super Resolution [67.19266415499139]
本稿では,幾何学的および外観的詳細を付加することにより,粗い3次元モデルをアップサンプルする,単純でモジュラーで汎用的な手法を提案する。既存の3次元超解像モデルを直接再利用できることを実証する。
論文参考訳（メタデータ） (2024-06-02T03:44:50Z)
GS-LRM: Large Reconstruction Model for 3D Gaussian Splatting [49.32327147931905]
単一A100 GPU上で2-4のスパース画像から高品質な3Dガウス像を0.23秒で予測できるスケーラブルな大規模再構成モデルGS-LRMを提案する。このモデルは非常に単純なトランスフォーマーベースアーキテクチャを特徴とし、入力されたイメージをパッチ化し、プリミティブなマルチビュー画像トークンをトランスフォーマーブロックのシーケンスに渡す。
論文参考訳（メタデータ） (2024-04-30T16:47:46Z)
LGM: Large Multi-View Gaussian Model for High-Resolution 3D Content Creation [51.19871052619077]
テキストプロンプトやシングルビュー画像から高解像度の3Dモデルを生成するための新しいフレームワークであるLarge Multi-View Gaussian Model (LGM)を紹介する。我々は,5秒以内に3Dオブジェクトを生成する高速な速度を維持しながら,トレーニング解像度を512に向上し,高解像度な3Dコンテンツ生成を実現する。
論文参考訳（メタデータ） (2024-02-07T17:57:03Z)
Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文参考訳（メタデータ） (2024-01-16T18:58:36Z)
LRM: Large Reconstruction Model for Single Image to 3D [61.47357798633123]
本稿では,1つの入力画像からオブジェクトの3次元モデルを5秒以内で予測する最初のLarge Restruction Model (LRM)を提案する。 LRMは5億の学習可能なパラメータを持つ高度にスケーラブルなトランスフォーマーベースのアーキテクチャを採用し、入力画像からニューラル放射場(NeRF)を直接予測する。約100万のオブジェクトを含む巨大なマルチビューデータに基づいて、エンド・ツー・エンドでモデルをトレーニングする。
論文参考訳（メタデータ） (2023-11-08T00:03:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。