Fugu-MT 論文翻訳(概要): GenXD: Generating Any 3D and 4D Scenes

論文の概要: GenXD: Generating Any 3D and 4D Scenes

arxiv url: http://arxiv.org/abs/2411.02319v2
Date: Tue, 05 Nov 2024 06:08:43 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.201021
Title: GenXD: Generating Any 3D and 4D Scenes
Title（参考訳）: GenXD:3Dと4Dのシーンを制作する
Authors: Yuyang Zhao, Chung-Ching Lin, Kevin Lin, Zhiwen Yan, Linjie Li, Zhengyuan Yang, Jianfeng Wang, Gim Hee Lee, Lijuan Wang,
Abstract要約: 本稿では,日常的によく見られるカメラと物体の動きを利用して,一般的な3Dと4Dの生成を共同で調査することを提案する。すべての3Dおよび4Dデータを活用することで、我々は、あらゆる3Dまたは4Dシーンを生成できるフレームワークであるGenXDを開発した。
参考スコア（独自算出の注目度）: 137.5455092319533
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent developments in 2D visual generation have been remarkably successful. However, 3D and 4D generation remain challenging in real-world applications due to the lack of large-scale 4D data and effective model design. In this paper, we propose to jointly investigate general 3D and 4D generation by leveraging camera and object movements commonly observed in daily life. Due to the lack of real-world 4D data in the community, we first propose a data curation pipeline to obtain camera poses and object motion strength from videos. Based on this pipeline, we introduce a large-scale real-world 4D scene dataset: CamVid-30K. By leveraging all the 3D and 4D data, we develop our framework, GenXD, which allows us to produce any 3D or 4D scene. We propose multiview-temporal modules, which disentangle camera and object movements, to seamlessly learn from both 3D and 4D data. Additionally, GenXD employs masked latent conditions to support a variety of conditioning views. GenXD can generate videos that follow the camera trajectory as well as consistent 3D views that can be lifted into 3D representations. We perform extensive evaluations across various real-world and synthetic datasets, demonstrating GenXD's effectiveness and versatility compared to previous methods in 3D and 4D generation.
Abstract（参考訳）: 2次元視覚生成の最近の進歩は著しく成功した。しかし、大規模な4Dデータと効果的なモデル設計が欠如しているため、現実のアプリケーションでは3Dと4D生成は依然として困難である。本稿では,日常的によく見られるカメラと物体の動きを利用して,一般的な3Dと4Dの生成を共同で調査する。コミュニティに現実の4Dデータがないため、まず、ビデオからカメラポーズと物体の動き強度を得るためのデータキュレーションパイプラインを提案する。このパイプラインに基づいて,大規模な実世界の4DシーンデータセットCamVid-30Kを紹介した。すべての3Dおよび4Dデータを活用することで、我々は、あらゆる3Dまたは4Dシーンを生成できるフレームワークであるGenXDを開発した。本稿では,3次元データと4次元データの両方からシームレスに学習するために,カメラと物体の動きをアンタングルする多視点時間モジュールを提案する。さらに、GenXDは様々な条件付けビューをサポートするためにマスク付き潜伏条件を採用している。 GenXDは、カメラの軌跡をたどるビデオや、一貫した3Dビューを3D表現に変換することができる。我々は、さまざまな実世界および合成データセットに対して広範囲に評価を行い、従来の3Dおよび4D生成法と比較して、GenXDの有効性と汎用性を実証した。

関連論文リスト

WideRange4D: Enabling High-Quality 4D Reconstruction with Wide-Range Movements and Scenes [65.76371201992654]
そこで本研究では,新しい4D再構成ベンチマークであるWideRange4Dを提案する。このベンチマークには、空間変動が大きいリッチな4Dシーンデータが含まれており、より包括的な4D生成手法の生成能力を評価できる。また,様々な複雑な4Dシーン再構成タスクに対して,安定かつ高品質な4D結果を生成する新しい4D再構成手法であるProgress4Dを導入する。
論文参考訳（メタデータ） (2025-03-17T17:58:18Z)
GS-DiT: Advancing Video Generation with Pseudo 4D Gaussian Fields through Efficient Dense 3D Point Tracking [38.104532522698285]
ビデオ拡散変換器(DiT)を直接訓練して4Dコンテンツを制御するには、高価なマルチビュービデオが必要である。モノクロ・ダイナミック・ノベル・ビュー・シンセサイザー (MDVS) に触発され, 擬似4次元ガウス場を映像生成に適用した。プレトレーニング済みのDiTを微調整して、GS-DiTと呼ばれるレンダリングされたビデオのガイダンスに従ってビデオを生成する。
論文参考訳（メタデータ） (2025-01-05T23:55:33Z)
Stereo4D: Learning How Things Move in 3D from Internet Stereo Videos [76.07894127235058]
本稿では,インターネットの立体視,広角ビデオから高品質な4D再構成をマイニングするシステムを提案する。本研究では,この手法を用いて世界整合型擬似3次元点雲の形で大規模データを生成する。 DUSt3Rの変種をトレーニングし、実世界の画像対から構造と3次元運動を予測することで、このデータの有用性を実証する。
論文参考訳（メタデータ） (2024-12-12T18:59:54Z)
You See it, You Got it: Learning 3D Creation on Pose-Free Videos at Scale [42.67300636733286]
本研究では,オープンワールド3D制作のための大規模インターネットビデオを用いた視覚条件付き多視点拡散モデルであるSee3Dを提案する。このモデルは、広大かつ急速に成長するビデオデータから視覚的内容だけを見ることによって、3Dの知識を得ることを目的としている。低コストでスケーラブルなビデオデータに基づいて訓練されたSee3Dは、ゼロショットおよびオープンワールド生成能力に優れることを示す。
論文参考訳（メタデータ） (2024-12-09T17:44:56Z)
Segment Any 4D Gaussians [69.53172192552508]
我々は,4次元ガウスアン(SA4D)をベースとした4次元デジタル世界において,任意の4次元ガウスアン(SA4D)をセグメンテーションすることを提案する。 SA4Dは4Dガウスで数秒以内の精度で高品質なセグメンテーションを実現し、高品質なマスクを取り除き、色を変え、構成し、レンダリングする能力を示している。
論文参考訳（メタデータ） (2024-07-05T13:44:15Z)
Director3D: Real-world Camera Trajectory and 3D Scene Generation from Text [61.9973218744157]
実世界の3Dシーンと適応カメラトラジェクトリの両方を生成するように設計された,堅牢なオープンワールドテキスト・ツー・3D生成フレームワークであるDirector3Dを紹介する。 Director3Dは既存の手法よりも優れており、実世界の3D生成において優れたパフォーマンスを提供する。
論文参考訳（メタデータ） (2024-06-25T14:42:51Z)
Efficient4D: Fast Dynamic 3D Object Generation from a Single-view Video [42.10482273572879]
本稿では,効率的な4Dオブジェクト生成フレームワークであるEfficient4Dを提案する。異なるカメラビューの下で高品質な時空一貫性の画像を生成し、ラベル付きデータとして使用する。合成ビデオと実ビデオの両方の実験によると、Efficient4Dのスピードは10倍に向上している。
論文参考訳（メタデータ） (2024-01-16T18:58:36Z)
4DGen: Grounded 4D Content Generation with Spatial-temporal Consistency [118.15258850780417]
この4DGenは、4Dコンテンツ作成のための新しいフレームワークである。静的な3Dアセットとモノクロビデオシーケンスを4Dコンテンツ構築のキーコンポーネントとして同定する。我々のパイプラインは条件付き4D生成を容易にし、ユーザーは幾何学(3Dアセット)と運動(眼球ビデオ)を指定できる。
論文参考訳（メタデータ） (2023-12-28T18:53:39Z)
OmniObject3D: Large-Vocabulary 3D Object Dataset for Realistic Perception, Reconstruction and Generation [107.71752592196138]
OmniObject3Dを提案する。OmniObject3Dは,大規模で高品質な3Dオブジェクトを持つ大語彙の3Dオブジェクトデータセットである。 190のカテゴリーで6,000のスキャン対象からなり、一般的な2Dデータセットと共通クラスを共有する。それぞれの3Dオブジェクトは、2Dと3Dの両方のセンサーでキャプチャされ、テクスチャメッシュ、ポイントクラウド、マルチビューレンダリング画像、複数の実写ビデオを提供する。
論文参考訳（メタデータ） (2023-01-18T18:14:18Z)
XDGAN: Multi-Modal 3D Shape Generation in 2D Space [60.46777591995821]
本稿では,3次元形状をコンパクトな1チャネル幾何画像に変換し,StyleGAN3と画像間翻訳ネットワークを利用して2次元空間で3次元オブジェクトを生成する手法を提案する。生成された幾何学画像は素早く3Dメッシュに変換し、リアルタイムな3Dオブジェクト合成、可視化、インタラクティブな編集を可能にする。近年の3次元生成モデルと比較して,より高速かつ柔軟な3次元形状生成,単一ビュー再構成,形状操作などの様々なタスクにおいて,本手法が有効であることを示す。
論文参考訳（メタデータ） (2022-10-06T15:54:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。