論文の概要: NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes
- arxiv url: http://arxiv.org/abs/2503.16375v1
- Date: Thu, 20 Mar 2025 17:37:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-21 16:31:43.096274
- Title: NuiScene: Exploring Efficient Generation of Unbounded Outdoor Scenes
- Title(参考訳): NuiScene: 無制限屋外シーンの効率的な生成を探求する
- Authors: Han-Hung Lee, Qinghong Han, Angel X. Chang,
- Abstract要約: 本稿では,城郭から高層住宅まで幅広い屋外シーンを創出する作業について検討する。
本研究では,シーンチャンクを一様ベクトル集合としてエンコードする効率的な手法を提案する。
この作業を容易にするために,共同トレーニング用に前処理した,小型ながら高品質なシーンセットであるNuiScene43をキュレートする。
- 参考スコア(独自算出の注目度): 12.284289908057854
- License:
- Abstract: In this paper, we explore the task of generating expansive outdoor scenes, ranging from castles to high-rises. Unlike indoor scene generation, which has been a primary focus of prior work, outdoor scene generation presents unique challenges, including wide variations in scene heights and the need for a method capable of rapidly producing large landscapes. To address this, we propose an efficient approach that encodes scene chunks as uniform vector sets, offering better compression and performance than the spatially structured latents used in prior methods. Furthermore, we train an explicit outpainting model for unbounded generation, which improves coherence compared to prior resampling-based inpainting schemes while also speeding up generation by eliminating extra diffusion steps. To facilitate this task, we curate NuiScene43, a small but high-quality set of scenes, preprocessed for joint training. Notably, when trained on scenes of varying styles, our model can blend different environments, such as rural houses and city skyscrapers, within the same scene, highlighting the potential of our curation process to leverage heterogeneous scenes for joint training.
- Abstract(参考訳): 本稿では,城郭から高層住宅まで幅広い屋外シーンを創出する作業について検討する。
先行作業の主眼である屋内シーン生成とは異なり、屋外シーン生成は、シーンの高さの広さや、大規模景観を迅速に生成できる方法の必要性など、ユニークな課題を呈している。
そこで本研究では,シーンチャンクを一様ベクトル集合としてエンコードする効率的な手法を提案する。
さらに, 余分な拡散ステップを排除して生成を高速化すると共に, 従来の再サンプリング方式よりもコヒーレンスを向上させる非有界生成のための明示的なアウトペイントモデルを訓練する。
この作業を容易にするために,共同トレーニング用に前処理した,小型ながら高品質なシーンセットであるNuiScene43をキュレートする。
特に、様々なスタイルのシーンでトレーニングを行う場合、同じシーン内で農村住宅や都市超高層ビルなどの異なる環境をブレンドすることができ、共同トレーニングに異質なシーンを活用するためのキュレーションプロセスの可能性を強調します。
関連論文リスト
- StarGen: A Spatiotemporal Autoregression Framework with Video Diffusion Model for Scalable and Controllable Scene Generation [12.016502857454228]
本稿では,遠距離シーン生成のための自己回帰的手法で,事前学習した映像拡散モデルを用いたフレームワークであるStarGenを提案する。
各ビデオクリップの生成は、隣接する画像の3Dワープと、予め生成されたクリップから時間的に重なる画像とに条件付けされ、正確なポーズ制御による長距離シーン生成の一貫性が向上する。
論文 参考訳(メタデータ) (2025-01-10T07:41:47Z) - Coherent and Multi-modality Image Inpainting via Latent Space Optimization [61.99406669027195]
PILOT(intextbfPainting vtextbfIa textbfOptextbfTimization)は、新しいテキストセマンティック中央化とテキストセマンティック保存損失に基づく最適化手法である。
本手法は,背景とのコヒーレンスを維持しつつ,ユーザが提供するプロンプトに対して高い忠実度を示す塗装領域を生成できる潜時空間を探索する。
論文 参考訳(メタデータ) (2024-07-10T19:58:04Z) - Move Anything with Layered Scene Diffusion [77.45870343845492]
拡散サンプリング過程におけるシーン表現を最適化するために,SceneDiffusionを提案する。
我々の重要な洞察は、異なる空間配置のシーンレンダリングを共同でデノベートすることで、空間的ゆがみを得ることができることである。
生成したシーンは、移動、再サイズ、クローニング、レイヤーワイドな外観編集操作を含む、幅広い空間編集操作をサポートする。
論文 参考訳(メタデータ) (2024-04-10T17:28:16Z) - Stylizing Sparse-View 3D Scenes with Hierarchical Neural Representation [0.0]
事前訓練されたニューラル放射場(NeRF)のシーン再構成力を利用する3Dスタイルのトランスファー手法の急増が提案されている。
本稿では,コンテンツセマンティクスとスタイルテクスチャの分離の観点から,スパースビューシーンのスタイリングについて考察する。
新しい階層的エンコーディングに基づくニューラル表現は、暗黙のシーン表現から直接高品質なスタイリングされたシーンを生成するように設計されている。
論文 参考訳(メタデータ) (2024-04-08T07:01:42Z) - BeyondScene: Higher-Resolution Human-Centric Scene Generation With Pretrained Diffusion [13.455394696524401]
BeyondSceneは、以前の制限を克服する新しいフレームワークである。
極めて高解像度(8K以上)の人間中心のシーンを、例外的なテキストイメージ対応と自然さで生成する。
BeyondSceneは、詳細なテキスト記述と自然性との対応という点で、既存の手法を超越している。
論文 参考訳(メタデータ) (2024-04-06T07:53:49Z) - Reusable Architecture Growth for Continual Stereo Matching [92.36221737921274]
我々は、教師付きおよび自己監督型の両方で、新しいシーンを継続的に学習するための、再利用可能なアーキテクチャ成長(RAG)フレームワークを紹介します。
RAGは、前のユニットを再利用し、良好な性能を得ることにより、成長中の高い再利用性を維持することができる。
また、推論時にシーン固有のアーキテクチャパスを適応的に選択するScene Routerモジュールを提案する。
論文 参考訳(メタデータ) (2024-03-30T13:24:58Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - RefinedFields: Radiance Fields Refinement for Unconstrained Scenes [7.421845364041002]
我々はRefinedFieldsを提案し、私たちの知識を最大限活用するために、事前学習されたモデルを活用して、フィールド内シーンモデリングを改善する最初の方法を提案する。
我々は、最適化誘導によりK-Planes表現を洗練するために、事前訓練されたネットワークを利用する。
本研究では,本手法が合成データや実際の観光写真コレクションに与える影響を検証し,広範な実験を行った。
論文 参考訳(メタデータ) (2023-12-01T14:59:43Z) - Progressively Optimized Local Radiance Fields for Robust View Synthesis [76.55036080270347]
本稿では,1つのカジュアルな映像から大規模シーンのラディアンス場を再構成するアルゴリズムを提案する。
未知のポーズを扱うために、カメラのポーズと放射場を漸進的に推定する。
大規模な非有界シーンを扱うために、時間窓内にフレームで訓練された新しい局所放射場を動的に割り当てる。
論文 参考訳(メタデータ) (2023-03-24T04:03:55Z) - DiffDreamer: Towards Consistent Unsupervised Single-view Scene
Extrapolation with Conditional Diffusion Models [91.94566873400277]
DiffDreamerは、長いカメラ軌跡を描いた新しいビューを合成できる教師なしのフレームワークである。
画像条件付き拡散モデルでは, 従来のGAN法よりも一貫性を保ちながら, 長距離シーン外挿を効果的に行うことができることを示す。
論文 参考訳(メタデータ) (2022-11-22T10:06:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。