論文の概要: ArtiScene: Language-Driven Artistic 3D Scene Generation Through Image Intermediary
- arxiv url: http://arxiv.org/abs/2506.00742v1
- Date: Sat, 31 May 2025 23:03:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:33.512872
- Title: ArtiScene: Language-Driven Artistic 3D Scene Generation Through Image Intermediary
- Title(参考訳): ArtiScene:画像仲介による言語駆動の3Dシーン生成
- Authors: Zeqi Gu, Yin Cui, Zhaoshuo Li, Fangyin Wei, Yunhao Ge, Jinwei Gu, Ming-Yu Liu, Abe Davis, Yifan Ding,
- Abstract要約: ArtiSceneは、シーンデザインのためのトレーニング不要の自動パイプラインである。
シーン記述から2D画像を生成し、オブジェクトの形状と外観を抽出し、3Dモデルを作成する。
測定基準によってレイアウトと美的品質の大きなマージンで最先端のベンチマークを上回ります。
- 参考スコア(独自算出の注目度): 37.41274496314127
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Designing 3D scenes is traditionally a challenging task that demands both artistic expertise and proficiency with complex software. Recent advances in text-to-3D generation have greatly simplified this process by letting users create scenes based on simple text descriptions. However, as these methods generally require extra training or in-context learning, their performance is often hindered by the limited availability of high-quality 3D data. In contrast, modern text-to-image models learned from web-scale images can generate scenes with diverse, reliable spatial layouts and consistent, visually appealing styles. Our key insight is that instead of learning directly from 3D scenes, we can leverage generated 2D images as an intermediary to guide 3D synthesis. In light of this, we introduce ArtiScene, a training-free automated pipeline for scene design that integrates the flexibility of free-form text-to-image generation with the diversity and reliability of 2D intermediary layouts. First, we generate 2D images from a scene description, then extract the shape and appearance of objects to create 3D models. These models are assembled into the final scene using geometry, position, and pose information derived from the same intermediary image. Being generalizable to a wide range of scenes and styles, ArtiScene outperforms state-of-the-art benchmarks by a large margin in layout and aesthetic quality by quantitative metrics. It also averages a 74.89% winning rate in extensive user studies and 95.07% in GPT-4o evaluation. Project page: https://artiscene-cvpr.github.io/
- Abstract(参考訳): 3Dシーンのデザインは、伝統的に芸術的専門知識と複雑なソフトウェアによる熟練の両方を必要とする難しい作業である。
近年のテキスト・ツー・3D生成の進歩により、ユーザーは簡単なテキスト記述に基づいてシーンを作成できるようになり、このプロセスは大幅に単純化された。
しかし、これらの手法は、通常、余分な訓練や文脈内学習を必要とするため、高品質な3Dデータの入手が制限されるため、その性能が妨げられることが多い。
対照的に、ウェブスケールの画像から学んだ現代のテキスト・ツー・イメージモデルでは、多様な、信頼性の高い空間的レイアウトと一貫性のある、視覚的に魅力的なスタイルのシーンを生成することができる。
重要な洞察は、3Dシーンから直接学習するのではなく、生成した2D画像を仲介者として利用して3D合成をガイドできるということです。
これを踏まえて,自由形式のテキスト・ツー・イメージ生成の柔軟性と2次元中間レイアウトの多様性と信頼性を統合した,シーン設計のためのトレーニングフリーな自動パイプラインであるArtiSceneを紹介した。
まず、シーン記述から2D画像を生成し、オブジェクトの形状と外観を抽出し、3Dモデルを作成する。
これらのモデルは、同じ中間画像から得られる幾何、位置、およびポーズを用いて最終シーンに組み立てられる。
幅広いシーンやスタイルに一般化可能なArtiSceneは、定量的メトリクスによるレイアウトと美的品質の大きなマージンで最先端のベンチマークを上回ります。
また、広範なユーザー調査では74.89%、GPT-4o評価では95.07%である。
プロジェクトページ: https://artiscene-cvpr.github.io/
関連論文リスト
- SceneCraft: Layout-Guided 3D Scene Generation [29.713491313796084]
シーンクラフト(SceneCraft)は、テキスト記述や空間的レイアウトの好みに則った、室内の詳細なシーンを生成する新しい方法である。
本手法は,多様なテクスチャ,一貫した幾何,現実的な視覚的品質を有する複雑な屋内シーン生成において,既存のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-10-11T17:59:58Z) - Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches [50.51643519253066]
3Dコンテンツ生成は、ビデオゲーム、映画制作、バーチャルおよび拡張現実など、多くのコンピュータグラフィックスアプリケーションの中心にある。
本稿では,インタラクティブでプレイ可能な3Dゲームシーンを自動的に生成するための,新しいディープラーニングベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-08T16:27:37Z) - SceneTeller: Language-to-3D Scene Generation [15.209079637302905]
本手法では,室内の物体配置を自然言語で記述し,それに対応する高品質な3Dシーンを生成する。
私たちのターンキーパイプラインは最先端の3Dシーンを生成しますが、初心者でも簡単に使用できます。
論文 参考訳(メタデータ) (2024-07-30T10:45:28Z) - Chat-Edit-3D: Interactive 3D Scene Editing via Text Prompts [76.73043724587679]
CE3Dと呼ばれる対話型3Dシーン編集手法を提案する。
Hash-Atlasは3Dシーンビューを表し、3Dシーンの編集を2Dアトラスイメージに転送する。
その結果、CE3Dは複数の視覚モデルを効果的に統合し、多様な視覚効果が得られることを示した。
論文 参考訳(メタデータ) (2024-07-09T13:24:42Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Control3D: Towards Controllable Text-to-3D Generation [107.81136630589263]
本稿では,手書きスケッチ,すなわちコントロール3Dについてテキストから3D生成条件を提案する。
2次元条件付き拡散モデル(ControlNet)を再構成し、NeRFとしてパラメータ化された3次元シーンの学習を誘導する。
合成3Dシーン上での描画画像のスケッチを直接推定するために,事前学習可能なフォト・ツー・スケッチ・モデルを利用する。
論文 参考訳(メタデータ) (2023-11-09T15:50:32Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。