論文の概要: TRELLISWorld: Training-Free World Generation from Object Generators
- arxiv url: http://arxiv.org/abs/2510.23880v1
- Date: Mon, 27 Oct 2025 21:40:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 17:50:20.168647
- Title: TRELLISWorld: Training-Free World Generation from Object Generators
- Title(参考訳): TRELLISWorld: オブジェクトジェネレータからの学習不要なワールドジェネレーション
- Authors: Hanke Chen, Yuan Liu, Minchen Li,
- Abstract要約: テキスト駆動の3Dシーン生成は、仮想プロトタイピングからAR/VR、シミュレーションまで、幅広いアプリケーションに対して約束されている。
既存のメソッドは、多くの場合、単一オブジェクトの生成、ドメイン固有のトレーニング、あるいは完全な360度ビュービリティのサポートの欠如に制約される。
汎用テキストから3Dオブジェクトへの拡散モデルをモジュラータイルジェネレータとして再利用することで,3次元シーン合成のトレーニング不要な手法を提案する。
- 参考スコア(独自算出の注目度): 13.962895984556582
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-driven 3D scene generation holds promise for a wide range of applications, from virtual prototyping to AR/VR and simulation. However, existing methods are often constrained to single-object generation, require domain-specific training, or lack support for full 360-degree viewability. In this work, we present a training-free approach to 3D scene synthesis by repurposing general-purpose text-to-3D object diffusion models as modular tile generators. We reformulate scene generation as a multi-tile denoising problem, where overlapping 3D regions are independently generated and seamlessly blended via weighted averaging. This enables scalable synthesis of large, coherent scenes while preserving local semantic control. Our method eliminates the need for scene-level datasets or retraining, relies on minimal heuristics, and inherits the generalization capabilities of object-level priors. We demonstrate that our approach supports diverse scene layouts, efficient generation, and flexible editing, establishing a simple yet powerful foundation for general-purpose, language-driven 3D scene construction.
- Abstract(参考訳): テキスト駆動の3Dシーン生成は、仮想プロトタイピングからAR/VR、シミュレーションまで、幅広いアプリケーションに対して約束されている。
しかし、既存のメソッドは、多くの場合、単一オブジェクトの生成、ドメイン固有のトレーニング、または完全な360度ビュービリティのサポートの欠如に制約される。
本研究では,汎用テキスト・ツー・3Dオブジェクト拡散モデルをモジュールタイルジェネレータとして再利用することで,3次元シーン合成のトレーニング不要な手法を提案する。
重み付け平均化により、重なり合う3D領域を独立に生成し、シームレスにブレンドするマルチタイルデノナイジング問題としてシーン生成を再構成する。
これにより、局所的なセマンティックコントロールを維持しながら、大規模で一貫性のあるシーンをスケーラブルに合成することができる。
本手法は,シーンレベルのデータセットや再学習の必要性を排除し,最小限のヒューリスティックスに依存し,オブジェクトレベルの事前の一般化能力を継承する。
我々は,多種多様なシーンレイアウト,効率的な生成,フレキシブルな編集をサポートし,汎用的な言語駆動の3Dシーン構築のためのシンプルかつ強力な基盤を確立することを実証した。
関連論文リスト
- WorldGrow: Generating Infinite 3D World [75.81531067447203]
我々は、無限に拡張可能な3D世界、すなわちコヒーレントな幾何学と現実的な外観を持つ大規模で連続的な環境を生み出すという課題に取り組む。
本研究では,非有界な3次元シーン合成のための階層的フレームワークWorldGrowを提案する。
提案手法は,(1)高品質なシーンブロックを抽出し,シーン生成に適した3D構造化潜在表現を作成するデータキュレーションパイプライン,(2)コンテキスト認識シーン拡張を可能にする3Dブロックインペイント機構,(3)グローバルなレイアウトの妥当性と局所幾何学的/音声的忠実性の両立を保証する粗大かつ微細な生成戦略,の3つのコアコンポーネントを特徴とする。
論文 参考訳(メタデータ) (2025-10-24T17:39:52Z) - Constructing a 3D Scene from a Single Image [31.11317559252235]
SceneFuse-3Dは、単一のトップダウンビューからコヒーレントな3Dシーンを合成するために設計されたトレーニング不要のフレームワークである。
入力画像を重なり合う領域に分解し、事前訓練された3Dオブジェクトジェネレータを用いてそれぞれを生成する。
このモジュラー設計により、3次元の監督や微調整を必要とせず、解像度のボトルネックを克服し、空間構造を維持できる。
論文 参考訳(メタデータ) (2025-05-21T17:10:47Z) - BloomScene: Lightweight Structured 3D Gaussian Splatting for Crossmodal Scene Generation [54.12899218104669]
3Dシーンは非常に複雑な構造を持ち、出力が密度が高く、一貫性があり、必要な全ての構造を含むことを保証する必要がある。
現在の3Dシーン生成法は、事前訓練されたテキスト・画像拡散モデルと単眼深度推定器に依存している。
クロスモーダルシーン生成のための軽量な3次元ガウススプラッティングであるBloomSceneを提案する。
論文 参考訳(メタデータ) (2025-01-15T11:33:34Z) - DreamScape: 3D Scene Creation via Gaussian Splatting joint Correlation Modeling [23.06464506261766]
テキストから3Dシーンを生成するDreamScapeを提案する。
LLMを用いたテキストから意味的プリミティブ、空間変換、関係をエンコードする3Dガウスガイドを使用する。
DreamScapeは最先端のパフォーマンスを実現し、高忠実でコントロール可能な3Dシーン生成を可能にする。
論文 参考訳(メタデータ) (2024-04-14T12:13:07Z) - 3D-SceneDreamer: Text-Driven 3D-Consistent Scene Generation [51.64796781728106]
本稿では,2次元拡散モデル以前の自然画像と,現在のシーンのグローバルな3次元情報を利用して,高品質で新しいコンテンツを合成する生成的精細化ネットワークを提案する。
提案手法は,視覚的品質と3次元の整合性を改善した多種多様なシーン生成と任意のカメラトラジェクトリをサポートする。
論文 参考訳(メタデータ) (2024-03-14T14:31:22Z) - Denoising Diffusion via Image-Based Rendering [54.20828696348574]
実世界の3Dシーンの高速かつ詳細な再構築と生成を可能にする最初の拡散モデルを提案する。
まず、大きな3Dシーンを効率よく正確に表現できる新しいニューラルシーン表現であるIBプレーンを導入する。
第二に,2次元画像のみを用いて,この新たな3次元シーン表現の事前学習を行うためのデノイング拡散フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-05T19:00:45Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - LucidDreaming: Controllable Object-Centric 3D Generation [10.646855651524387]
本稿では,テキストプロンプトコマンドや3Dバウンディングボックスのみから3次元生成を空間的,数値的に制御できるパイプラインを提案する。
LucidDreamingは、現在のアプローチと比較して、オブジェクトの配置精度と生成精度において優れた結果を得る。
論文 参考訳(メタデータ) (2023-11-30T18:55:23Z) - Anything-3D: Towards Single-view Anything Reconstruction in the Wild [61.090129285205805]
本稿では,一連の視覚言語モデルとSegment-Anythingオブジェクトセグメンテーションモデルを組み合わせた方法論的フレームワークであるAnything-3Dを紹介する。
提案手法では、BLIPモデルを用いてテキスト記述を生成し、Segment-Anythingモデルを用いて関心対象を効果的に抽出し、テキスト・画像拡散モデルを用いて物体を神経放射場へ持ち上げる。
論文 参考訳(メタデータ) (2023-04-19T16:39:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。