論文の概要: Static and Animated 3D Scene Generation from Free-form Text Descriptions
- arxiv url: http://arxiv.org/abs/2010.01549v2
- Date: Sat, 28 Nov 2020 19:28:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-11 03:06:21.235881
- Title: Static and Animated 3D Scene Generation from Free-form Text Descriptions
- Title(参考訳): 自由形式テキスト記述による静的およびアニメーション3次元シーン生成
- Authors: Faria Huq, Nafees Ahmed, Anindya Iqbal
- Abstract要約: 本研究では,異なるタイプの自由形式のテキストシーン記述から静的な3Dシーンを生成することを目的とした,新しいパイプラインについて検討する。
最初の段階では、エンコーダ-デコーダニューラルアーキテクチャを用いて自由形式のテキストを符号化する。
第2段階では、生成された符号化に基づいて3Dシーンを生成する。
- 参考スコア(独自算出の注目度): 1.102914654802229
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Generating coherent and useful image/video scenes from a free-form textual
description is technically a very difficult problem to handle. Textual
description of the same scene can vary greatly from person to person, or
sometimes even for the same person from time to time. As the choice of words
and syntax vary while preparing a textual description, it is challenging for
the system to reliably produce a consistently desirable output from different
forms of language input. The prior works of scene generation have been mostly
confined to rigorous sentence structures of text input which restrict the
freedom of users to write description. In our work, we study a new pipeline
that aims to generate static as well as animated 3D scenes from different types
of free-form textual scene description without any major restriction. In
particular, to keep our study practical and tractable, we focus on a small
subspace of all possible 3D scenes, containing various combinations of cube,
cylinder and sphere. We design a two-stage pipeline. In the first stage, we
encode the free-form text using an encoder-decoder neural architecture. In the
second stage, we generate a 3D scene based on the generated encoding. Our
neural architecture exploits state-of-the-art language model as encoder to
leverage rich contextual encoding and a new multi-head decoder to predict
multiple features of an object in the scene simultaneously. For our
experiments, we generate a large synthetic data-set which contains 13,00,000
and 14,00,000 samples of unique static and animated scene descriptions,
respectively. We achieve 98.427% accuracy on test data set in detecting the 3D
objects features successfully. Our work shows a proof of concept of one
approach towards solving the problem, and we believe with enough training data,
the same pipeline can be expanded to handle even broader set of 3D scene
generation problems.
- Abstract(参考訳): 自由形式のテキスト記述からコヒーレントで有用な画像/ビデオシーンを生成するのは、技術的に非常に難しい問題です。
同じ場面のテキストによる記述は、人によって大きく異なるり、時折同じ人物に対しても大きく異なることがある。
テキスト記述の準備中に単語と構文の選択が変化するため、異なる形式の言語入力から一貫して望ましい出力を確実に生成することは困難である。
シーン生成の以前の作業は、ユーザによる記述の自由を制限するテキスト入力の厳密な文構造に限られていた。
そこで本研究では,様々な自由形式のテキストシーン記述から静的な3dシーンを生成することを目的とした新しいパイプラインについて検討した。
特に,本研究では,立方体,シリンダ,球面の様々な組み合わせを含む,可能なすべての3次元シーンの小さな部分空間に焦点をあてる。
2段階のパイプラインを設計します。
最初の段階では、エンコーダ-デコーダニューラルアーキテクチャを用いて自由形式のテキストを符号化する。
第2段階では,生成した符号化に基づいて3次元シーンを生成する。
我々のニューラルアーキテクチャは、エンコーダとして最先端の言語モデルを利用して、リッチなコンテキストエンコーディングと新しいマルチヘッドデコーダを利用して、シーン内のオブジェクトの複数の特徴を同時に予測する。
実験では, それぞれ, 13,00,000 と 14,00,000 のユニークな静的シーン記述とアニメーションシーン記述を含む大規模な合成データセットを生成する。
3dオブジェクトの特徴を検出するテストデータセットの精度は98.427%である。
われわれの研究は、問題を解決するための一つのアプローチの実証であり、十分なトレーニングデータがあれば、同じパイプラインを拡張して、より広範な3Dシーン生成問題に対処できると考えている。
関連論文リスト
- 3D Vision and Language Pretraining with Large-Scale Synthetic Data [28.45763758308814]
3D Vision-Language Pre-Trainingの目的は、3Dシーンを自然言語でブリッジできるプリトレインモデルを提供することだ。
SynVL3Dは10Kの屋内シーンと1Mのオブジェクト、ビュー、ルームレベルでの記述を備えた総合的な合成シーンテキストコーパスである。
本稿では、下流タスクの微調整プロセスにおけるドメインシフトに対応するために、合成から現実へのドメイン適応を提案する。
論文 参考訳(メタデータ) (2024-07-08T16:26:52Z) - GHOST: Grounded Human Motion Generation with Open Vocabulary Scene-and-Text Contexts [48.28000728061778]
本稿では,オープンな語彙シーンエンコーダをアーキテクチャに統合し,テキストとシーン間の堅牢な接続を確立する手法を提案する。
提案手法は,従来の最先端ベースラインモデルと比較すると,目標目標距離距離を最大30%削減する。
論文 参考訳(メタデータ) (2024-04-08T18:24:12Z) - Text2Immersion: Generative Immersive Scene with 3D Gaussians [14.014016090679627]
Text2Immersionは、テキストプロンプトから高品質な3D没入シーンを生成するためのエレガントな方法である。
我々のシステムは、品質と多様性をレンダリングする他の手法を超越し、テキスト駆動の3Dシーン生成に向けてさらに前進している。
論文 参考訳(メタデータ) (2023-12-14T18:58:47Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。
シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。
GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文 参考訳(メタデータ) (2023-11-30T18:59:58Z) - Text2NeRF: Text-Driven 3D Scene Generation with Neural Radiance Fields [29.907615852310204]
テキストプロンプトから多種多様な3Dシーンを生成できるText2NeRFを提案する。
本手法では,追加のトレーニングデータを必要としないが,入力としてシーンを自然言語で記述するのみである。
論文 参考訳(メタデータ) (2023-05-19T10:58:04Z) - Text-To-4D Dynamic Scene Generation [111.89517759596345]
テキスト記述から3次元動的シーンを生成するMAV3D(Make-A-Video3D)を提案する。
提案手法では, シーンの外観, 密度, 動きの整合性に最適化された4次元動的ニューラルラジアンス場(NeRF)を用いる。
提供されるテキストから出力されるダイナミックビデオは、任意のカメラの位置と角度から見ることができ、任意の3D環境に合成することができる。
論文 参考訳(メタデータ) (2023-01-26T18:14:32Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - OpenScene: 3D Scene Understanding with Open Vocabularies [73.1411930820683]
従来の3Dシーン理解アプローチは、単一のタスクのためにモデルをトレーニングするためのラベル付き3Dデータセットに依存している。
私たちは,CLIP機能空間にテキストと画像ピクセルを埋め込んだ3次元シーンポイントの高密度な特徴をモデルが予測する代替手法OpenSceneを提案する。
このゼロショットアプローチは、タスク非依存のトレーニングとオープン語彙クエリを可能にする。
論文 参考訳(メタデータ) (2022-11-28T18:58:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。