論文の概要: Scene Co-pilot: Procedural Text to Video Generation with Human in the Loop
- arxiv url: http://arxiv.org/abs/2411.18644v1
- Date: Tue, 26 Nov 2024 19:21:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-02 15:20:36.367014
- Title: Scene Co-pilot: Procedural Text to Video Generation with Human in the Loop
- Title(参考訳): Scene Co-pilot: ループ中の人間とビデオ生成のための手続き的テキスト
- Authors: Zhaofang Qian, Abolfazl Sharifi, Tucker Carroll, Ser-Nam Lim,
- Abstract要約: Scene Copilotは、大規模言語モデル(LLM)と手続き型3Dシーンジェネレータを組み合わせたフレームワークである。
Scene Codexはテキスト入力を3Dシーンジェネレータで理解できるコマンドに変換するように設計されている。
BlenderGPTは、生成された3Dシーンと最終的な出力映像を正確に制御する直感的で直接的な方法を提供する。
- 参考スコア(独自算出の注目度): 32.92038804110175
- License:
- Abstract: Video generation has achieved impressive quality, but it still suffers from artifacts such as temporal inconsistency and violation of physical laws. Leveraging 3D scenes can fundamentally resolve these issues by providing precise control over scene entities. To facilitate the easy generation of diverse photorealistic scenes, we propose Scene Copilot, a framework combining large language models (LLMs) with a procedural 3D scene generator. Specifically, Scene Copilot consists of Scene Codex, BlenderGPT, and Human in the loop. Scene Codex is designed to translate textual user input into commands understandable by the 3D scene generator. BlenderGPT provides users with an intuitive and direct way to precisely control the generated 3D scene and the final output video. Furthermore, users can utilize Blender UI to receive instant visual feedback. Additionally, we have curated a procedural dataset of objects in code format to further enhance our system's capabilities. Each component works seamlessly together to support users in generating desired 3D scenes. Extensive experiments demonstrate the capability of our framework in customizing 3D scenes and video generation.
- Abstract(参考訳): ビデオ生成は目覚ましい品質を達成したが、それでも時間的不整合や物理法則違反といったアーティファクトに悩まされている。
3Dシーンの活用は、シーンエンティティを正確に制御することで、これらの問題を根本的に解決することができる。
本研究では,大規模言語モデル(LLM)と手続き型3Dシーンジェネレータを組み合わせたフレームワークであるScene Copilotを提案する。
具体的には、Scene Copilotはループ内のScene Codex、BlenderGPT、Humanで構成されている。
Scene Codexはテキスト入力を3Dシーンジェネレータで理解できるコマンドに変換するように設計されている。
BlenderGPTは、生成された3Dシーンと最終的な出力映像を正確に制御する直感的で直接的な方法を提供する。
さらに、ユーザはBlender UIを使用して、瞬時に視覚的なフィードバックを受け取ることができる。
さらに、私たちは、システムの機能を強化するために、コード形式でオブジェクトの手続き的データセットをキュレートしました。
各コンポーネントはシームレスに連携して、ユーザが望ましい3Dシーンを生成するのをサポートする。
大規模な実験は、我々のフレームワークが3Dシーンとビデオ生成をカスタマイズする能力を実証している。
関連論文リスト
- PaintScene4D: Consistent 4D Scene Generation from Text Prompts [29.075849524496707]
PaintScene4Dは、新しいテキストから4Dのシーン生成フレームワークである。
さまざまな現実世界のデータセットでトレーニングされたビデオ生成モデルを活用する。
任意の軌道から見ることができるリアルな4Dシーンを生成する。
論文 参考訳(メタデータ) (2024-12-05T18:59:57Z) - Sketch2Scene: Automatic Generation of Interactive 3D Game Scenes from User's Casual Sketches [50.51643519253066]
3Dコンテンツ生成は、ビデオゲーム、映画制作、バーチャルおよび拡張現実など、多くのコンピュータグラフィックスアプリケーションの中心にある。
本稿では,インタラクティブでプレイ可能な3Dゲームシーンを自動的に生成するための,新しいディープラーニングベースのアプローチを提案する。
論文 参考訳(メタデータ) (2024-08-08T16:27:37Z) - iControl3D: An Interactive System for Controllable 3D Scene Generation [57.048647153684485]
iControl3Dは、ユーザがカスタマイズ可能な3Dシーンを正確なコントロールで生成およびレンダリングできるようにする、新しいインタラクティブシステムである。
我々は3Dメッシュを仲介プロキシとして利用し、個別の2D拡散生成画像を結合的で統一された3Dシーン表現に反復的にマージする。
私たちのニューラルレンダリングインターフェースは、ユーザが自分のシーンのラディアンスフィールドをオンラインで構築し、シーン全体をナビゲートすることを可能にする。
論文 参考訳(メタデータ) (2024-08-03T06:35:09Z) - SceneTeller: Language-to-3D Scene Generation [15.209079637302905]
本手法では,室内の物体配置を自然言語で記述し,それに対応する高品質な3Dシーンを生成する。
私たちのターンキーパイプラインは最先端の3Dシーンを生成しますが、初心者でも簡単に使用できます。
論文 参考訳(メタデータ) (2024-07-30T10:45:28Z) - 3DitScene: Editing Any Scene via Language-guided Disentangled Gaussian Splatting [100.94916668527544]
既存の方法は、個々の2Dオブジェクトまたは3Dグローバルシーン編集にのみ焦点をあてる。
本稿では,新鮮で統一的なシーン編集フレームワークである3DitSceneを提案する。
2Dから3Dへのシームレスな編集が可能で、シーン構成や個々のオブジェクトを正確に制御できる。
論文 参考訳(メタデータ) (2024-05-28T17:59:01Z) - Disentangled 3D Scene Generation with Layout Learning [109.03233745767062]
本稿では,コンポーネントオブジェクトに絡み合った3Dシーンを生成する手法を提案する。
私たちの重要な洞察は、オブジェクトは空間的に再構成された場合、同じシーンの有効な構成を生成する3Dシーンの一部を見つけることで発見できるということです。
単純さにもかかわらず、我々のアプローチは個々のオブジェクトに3Dシーンを生成することに成功している。
論文 参考訳(メタデータ) (2024-02-26T18:54:15Z) - GALA3D: Towards Text-to-3D Complex Scene Generation via Layout-guided Generative Gaussian Splatting [52.150502668874495]
GALA3D, GALA3D, 生成3D GAussian, LAyout-guided control, for effective compositional text-to-3D generation。
GALA3Dは、最先端のシーンレベルの3Dコンテンツ生成と制御可能な編集のための、ユーザフレンドリーでエンドツーエンドのフレームワークである。
論文 参考訳(メタデータ) (2024-02-11T13:40:08Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。