Fugu-MT 論文翻訳(概要): Persistent Nature: A Generative Model of Unbounded 3D Worlds

論文の概要: Persistent Nature: A Generative Model of Unbounded 3D Worlds

arxiv url: http://arxiv.org/abs/2303.13515v1
Date: Thu, 23 Mar 2023 17:59:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-03-24 12:45:59.408231
Title: Persistent Nature: A Generative Model of Unbounded 3D Worlds
Title（参考訳）: 永続性自然:非有界3次元世界の生成モデル
Authors: Lucy Chai, Richard Tucker, Zhengqi Li, Phillip Isola, Noah Snavely
Abstract要約: 任意のカメラポーズから3Dデコーダとボリュームレンダリングによって描画できる拡張可能な平面配置グリッドを提案する。この表現に基づいて、単一視点のインターネット写真のみから生成的世界モデルを学ぶ。提案手法は,現在の3次元生成モデルの固定境界を超えるシーン外挿を可能にするとともに,永続的でカメラに依存しない世界表現をサポートする。
参考スコア（独自算出の注目度）: 74.51149070418002
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Despite increasingly realistic image quality, recent 3D image generative models often operate on 3D volumes of fixed extent with limited camera motions. We investigate the task of unconditionally synthesizing unbounded nature scenes, enabling arbitrarily large camera motion while maintaining a persistent 3D world model. Our scene representation consists of an extendable, planar scene layout grid, which can be rendered from arbitrary camera poses via a 3D decoder and volume rendering, and a panoramic skydome. Based on this representation, we learn a generative world model solely from single-view internet photos. Our method enables simulating long flights through 3D landscapes, while maintaining global scene consistency--for instance, returning to the starting point yields the same view of the scene. Our approach enables scene extrapolation beyond the fixed bounds of current 3D generative models, while also supporting a persistent, camera-independent world representation that stands in contrast to auto-regressive 3D prediction models. Our project page: https://chail.github.io/persistent-nature/.
Abstract（参考訳）: より現実的な画質にもかかわらず、最近の3D画像生成モデルは、制限されたカメラモーションで、一定範囲の3Dボリュームで動作することが多い。本研究では,無条件自然シーンを無条件に合成し,永続的な3dワールドモデルを維持しながら任意に大きなカメラ動作を可能にするタスクについて検討する。我々のシーン表現は、任意のカメラポーズから3Dデコーダとボリュームレンダリング、パノラマスカイドームを描画できる拡張可能な平面的なシーンレイアウトグリッドで構成されている。この表現に基づいて、単一視点のインターネット写真のみから生成的世界モデルを学ぶ。本手法は,3次元景観を通した長距離飛行のシミュレーションを可能にするとともに,グローバルなシーンの一貫性を保ちながら,例えば開始点に戻ると,シーンの同じビューが得られる。提案手法は,現在の3次元生成モデルの固定境界を超えるシーン外挿を可能にするとともに,自動回帰型3次元予測モデルとは対照的に,永続的でカメラに依存しない世界表現をサポートする。プロジェクトページ: https://chail.github.io/persistent-nature/

関連論文リスト

Voyager: Long-Range and World-Consistent Video Diffusion for Explorable 3D Scene Generation [66.95956271144982]
本稿では,単一画像から一貫した3Dポイントクラウドシーケンスを生成する新しいビデオ拡散フレームワークであるVoyagerを紹介する。既存のアプローチとは異なり、Voyagerはフレーム間で固有の一貫性を持って、エンドツーエンドのシーン生成と再構築を実現している。
論文参考訳（メタデータ） (2025-06-04T17:59:04Z)
WorldExplorer: Towards Generating Fully Navigable 3D Scenes [49.21733308718443]
WorldExplorerは、幅広い視点で一貫した視覚的品質で、完全にナビゲート可能な3Dシーンを構築する。私たちは、シーンを深く探求する、短く定義された軌道に沿って、複数のビデオを生成します。我々の新しいシーン記憶は、各ビデオが最も関連性の高い先行ビューで条件付けされている一方、衝突検出機構は劣化を防止している。
論文参考訳（メタデータ） (2025-06-02T15:41:31Z)
Continuous 3D Perception Model with Persistent State [111.83854602049222]
広い範囲の3Dタスクを解くことができる統一的なフレームワークを提案する。我々のアプローチでは、新しい観測毎に状態表現を継続的に更新するステートフルなリカレントモデルが特徴である。各種3D/4Dタスクにおける本手法の評価を行い,各課題における競合性や最先端性能を実証する。
論文参考訳（メタデータ） (2025-01-21T18:59:23Z)
PaintScene4D: Consistent 4D Scene Generation from Text Prompts [29.075849524496707]
PaintScene4Dは、新しいテキストから4Dのシーン生成フレームワークである。さまざまな現実世界のデータセットでトレーニングされたビデオ生成モデルを活用する。任意の軌道から見ることができるリアルな4Dシーンを生成する。
論文参考訳（メタデータ） (2024-12-05T18:59:57Z)
InfiniCube: Unbounded and Controllable Dynamic 3D Driving Scene Generation with World-Guided Video Models [75.03495065452955]
InfiniCubeはダイナミックな3次元駆動シーンを高忠実かつ制御性で生成するスケーラブルな方法である。制御可能でリアルな3Dドライビングシーンを生成でき、モデルの有効性と優越性を広範囲にわたる実験により検証できる。
論文参考訳（メタデータ） (2024-12-05T07:32:20Z)
Generating 3D-Consistent Videos from Unposed Internet Photos [68.944029293283]
カメラパラメータなどの3Dアノテーションを使わずに,スケーラブルな3D対応ビデオモデルをトレーニングする。その結果,映像やマルチビューインターネット写真などの2次元データのみを用いて,シーンレベルの3D学習をスケールアップできることが示唆された。
論文参考訳（メタデータ） (2024-11-20T18:58:31Z)
MagicDrive3D: Controllable 3D Generation for Any-View Rendering in Street Scenes [72.02827211293736]
MagicDrive3Dは、コントロール可能な3Dストリートシーン生成のための新しいフレームワークである。ロードマップ、3Dオブジェクト、テキスト記述を含むマルチコンディション制御をサポートする。多様な高品質な3Dドライビングシーンを生成し、任意のビューレンダリングをサポートし、BEVセグメンテーションのような下流タスクを強化する。
論文参考訳（メタデータ） (2024-05-23T12:04:51Z)
CAT3D: Create Anything in 3D with Multi-View Diffusion Models [87.80820708758317]
CAT3D(CAT3D)は,この実世界のキャプチャプロセスを多視点拡散モデルでシミュレートし,任意のものを3Dで作成する手法である。 CAT3Dは1分で3Dシーン全体を作成できる。
論文参考訳（メタデータ） (2024-05-16T17:59:05Z)
3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文参考訳（メタデータ） (2024-03-14T14:31:22Z)
Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文参考訳（メタデータ） (2024-02-05T19:00:45Z)
3inGAN: Learning a 3D Generative Model from Images of a Self-similar Scene [34.2144933185175]
3inGANは、単一の自己相似3Dシーンの2D画像から訓練された無条件3D生成モデルである。実地および合成源から得られた,様々なスケールと複雑さの半確率的な場面での結果を示す。
論文参考訳（メタデータ） (2022-11-27T18:03:21Z)
CAMPARI: Camera-Aware Decomposed Generative Neural Radiance Fields [67.76151996543588]
画像だけでなく,カメラデータ分布を忠実に復元する3次元およびカメラ認識生成モデルについて検討した。テスト時に、私たちのモデルは、カメラを明示的に制御し、シーンの形状と外観で画像を生成します。
論文参考訳（メタデータ） (2021-03-31T17:59:24Z)
Unsupervised object-centric video generation and decomposition in 3D [36.08064849807464]
本研究では,複数の3Dオブジェクトと3D背景を持つシーンを移動しながら映像を映像としてモデル化することを提案する。我々のモデルは、監督なしに単眼ビデオから訓練されるが、複数の動く物体を含むコヒーレントな3Dシーンを生成することを学ぶ。
論文参考訳（メタデータ） (2020-07-07T18:01:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。