論文の概要: Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract
Scene Descriptions
- arxiv url: http://arxiv.org/abs/2306.06212v1
- Date: Fri, 9 Jun 2023 19:24:39 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 20:34:28.595627
- Title: Aladdin: Zero-Shot Hallucination of Stylized 3D Assets from Abstract
Scene Descriptions
- Title(参考訳): Aladdin:抽象シーン記述による立体立体集合のゼロショット幻覚
- Authors: Ian Huang, Vrishab Krishna, Omoruyi Atekha, Leonidas Guibas
- Abstract要約: 本稿では,短いフレーズで記述した3Dシーンのためのスタイリングされたアセットを生成するシステムを提案する。
限られたデータで訓練された伝統的な方法が、3Dアーティストにとってより創造的な自由ではないように、オープンワールドの概念は堅牢である。
- 参考スコア(独自算出の注目度): 0.19116784879310023
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: What constitutes the "vibe" of a particular scene? What should one find in "a
busy, dirty city street", "an idyllic countryside", or "a crime scene in an
abandoned living room"? The translation from abstract scene descriptions to
stylized scene elements cannot be done with any generality by extant systems
trained on rigid and limited indoor datasets. In this paper, we propose to
leverage the knowledge captured by foundation models to accomplish this
translation. We present a system that can serve as a tool to generate stylized
assets for 3D scenes described by a short phrase, without the need to enumerate
the objects to be found within the scene or give instructions on their
appearance. Additionally, it is robust to open-world concepts in a way that
traditional methods trained on limited data are not, affording more creative
freedom to the 3D artist. Our system demonstrates this using a foundation model
"team" composed of a large language model, a vision-language model and several
image diffusion models, which communicate using an interpretable and
user-editable intermediate representation, thus allowing for more versatile and
controllable stylized asset generation for 3D artists. We introduce novel
metrics for this task, and show through human evaluations that in 91% of the
cases, our system outputs are judged more faithful to the semantics of the
input scene description than the baseline, thus highlighting the potential of
this approach to radically accelerate the 3D content creation process for 3D
artists.
- Abstract(参考訳): 特定のシーンの「ビブ」とは何か?
「忙しい、汚れた街の通り」、「アイドルな田舎」、「放棄されたリビングルームの犯罪現場」には何を見つけるべきか。
抽象的なシーン記述からスタイル化されたシーン要素への変換は、厳格で限られた屋内データセットで訓練された既存のシステムでは、いかなる汎用性でも実行できない。
本稿では,基礎モデルが獲得する知識を活用し,この翻訳を実現することを提案する。
本稿では,3Dシーンのスタイル化されたアセットを生成するツールとして,短いフレーズで記述した3Dシーンを列挙したり,その外観を指示したりすることなく作成するシステムを提案する。
さらに、限られたデータで訓練された伝統的な方法がそうでないように、オープンワールドの概念が堅牢であり、3Dアーティストにとってより創造的な自由を与える。
本システムでは,大規模な言語モデル,視覚言語モデル,画像拡散モデルからなる基礎モデル「チーム」を用いて,解釈可能かつユーザ編集可能な中間表現を用いてコミュニケーションを行うことにより,より汎用的で制御可能な3dアーティストのアセット生成を実現する。
そこで本研究では,本課題に対して新たな指標を導入し,その91%の事例において,入力シーン記述のセマンティクスに忠実なシステムアウトプットが判断されることを示すとともに,この手法が3dアーティストの3dコンテンツ作成プロセスを劇的に加速する可能性を強調した。
関連論文リスト
- SceneCraft: Layout-Guided 3D Scene Generation [29.713491313796084]
シーンクラフト(SceneCraft)は、テキスト記述や空間的レイアウトの好みに則った、室内の詳細なシーンを生成する新しい方法である。
本手法は,多様なテクスチャ,一貫した幾何,現実的な視覚的品質を有する複雑な屋内シーン生成において,既存のアプローチを著しく上回っている。
論文 参考訳(メタデータ) (2024-10-11T17:59:58Z) - Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches [50.51643519253066]
3Dコンテンツ生成は、ビデオゲーム、映画制作、バーチャルおよび拡張現実など、多くのコンピュータグラフィックスアプリケーションの中心にある。
本稿では,インタラクティブでプレイ可能な3Dゲームシーンを自動的に生成するための,新しいディープラーニングベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-08T16:27:37Z) - SceneTeller: Language-to-3D Scene Generation [15.209079637302905]
本手法では,室内の物体配置を自然言語で記述し,それに対応する高品質な3Dシーンを生成する。
私たちのターンキーパイプラインは最先端の3Dシーンを生成しますが、初心者でも簡単に使用できます。
論文 参考訳(メタデータ) (2024-07-30T10:45:28Z) - Agent3D-Zero: An Agent for Zero-shot 3D Understanding [79.88440434836673]
Agent3D-Zeroは、3Dシーン理解に対処する革新的な3D対応エージェントフレームワークである。
本稿では,3次元理解のための視点を積極的に選択し,分析することで,VLM(Large Visual Language Model)を利用する新しい手法を提案する。
Agent3D-Zeroの独特な利点は、新しい視覚的プロンプトの導入である。
論文 参考訳(メタデータ) (2024-03-18T14:47:03Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - SceneDreamer: Unbounded 3D Scene Generation from 2D Image Collections [49.802462165826554]
SceneDreamerは,非有界な3次元シーンの無条件生成モデルである。
フレームワークは,3Dアノテーションを使わずに,Wild 2Dイメージコレクションのみから学習する。
論文 参考訳(メタデータ) (2023-02-02T18:59:16Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - LanguageRefer: Spatial-Language Model for 3D Visual Grounding [72.7618059299306]
3次元視覚的グラウンドリング問題に対する空間言語モデルを構築した。
本稿では,ReferIt3Dが提案する視覚言語データセットに対して,本モデルが競合的に動作することを示す。
論文 参考訳(メタデータ) (2021-07-07T18:55:03Z) - Static and Animated 3D Scene Generation from Free-form Text Descriptions [1.102914654802229]
本研究では,異なるタイプの自由形式のテキストシーン記述から静的な3Dシーンを生成することを目的とした,新しいパイプラインについて検討する。
最初の段階では、エンコーダ-デコーダニューラルアーキテクチャを用いて自由形式のテキストを符号化する。
第2段階では、生成された符号化に基づいて3Dシーンを生成する。
論文 参考訳(メタデータ) (2020-10-04T11:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。