論文の概要: SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model
- arxiv url: http://arxiv.org/abs/2403.13064v1
- Date: Tue, 19 Mar 2024 18:01:29 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-21 20:59:01.677340
- Title: SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model
- Title(参考訳): SceneScript: 自己回帰型構造化言語モデルでシーンを再構築する
- Authors: Armen Avetisyan, Christopher Xie, Henry Howard-Jenkins, Tsun-Yi Yang, Samir Aroudj, Suvam Patra, Fuyang Zhang, Duncan Frost, Luke Holland, Campbell Orme, Jakob Engel, Edward Miller, Richard Newcombe, Vasileios Balntas,
- Abstract要約: SceneScriptは、構造化言語コマンドのシーケンスとして、フルシーンモデルを生成するメソッドである。
本手法は,符号化された視覚データから直接構造化言語コマンドのセットを推論する。
提案手法は,3次元オブジェクト検出において,構造的レイアウト推定における最先端の成果と競合する結果を与える。
- 参考スコア(独自算出の注目度): 7.707324214953882
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce SceneScript, a method that directly produces full scene models as a sequence of structured language commands using an autoregressive, token-based approach. Our proposed scene representation is inspired by recent successes in transformers & LLMs, and departs from more traditional methods which commonly describe scenes as meshes, voxel grids, point clouds or radiance fields. Our method infers the set of structured language commands directly from encoded visual data using a scene language encoder-decoder architecture. To train SceneScript, we generate and release a large-scale synthetic dataset called Aria Synthetic Environments consisting of 100k high-quality in-door scenes, with photorealistic and ground-truth annotated renders of egocentric scene walkthroughs. Our method gives state-of-the art results in architectural layout estimation, and competitive results in 3D object detection. Lastly, we explore an advantage for SceneScript, which is the ability to readily adapt to new commands via simple additions to the structured language, which we illustrate for tasks such as coarse 3D object part reconstruction.
- Abstract(参考訳): SceneScriptは,自己回帰型トークンベースのアプローチを用いて,構造化言語コマンドのシーケンスとして,シーンモデルを直接生成する手法である。
提案するシーン表現は,近年のトランスフォーマーとLLMの成功に触発され,メッシュやボクセルグリッド,点雲,放射場などのシーンを一般的に記述する従来の手法から逸脱する。
本手法は,シーン言語エンコーダ・デコーダアーキテクチャを用いて,映像データから構造化言語コマンドのセットを直接推論する。
SceneScriptを訓練するために、100万の高品質な室内シーンからなるAria Synthetic Environmentsと呼ばれる大規模な合成データセットを生成し、リリースする。
提案手法は,3次元オブジェクト検出において,構造的レイアウト推定における最先端の成果と競合する結果を与える。
最後に、構造化言語への簡単な追加を通じて、新しいコマンドに簡単に適応できるSceneScriptの利点について検討する。
関連論文リスト
- The Scene Language: Representing Scenes with Programs, Words, and Embeddings [23.707974056165042]
本稿では,視覚シーンの構造,意味,アイデンティティを簡潔かつ正確に記述した視覚シーン表現であるシーン言語を紹介する。
シーン内のエンティティの階層構造と関係構造を指定するプログラム、各エンティティのセマンティッククラスを要約する自然言語の単語、各エンティティの視覚的アイデンティティをキャプチャする埋め込みである。
論文 参考訳(メタデータ) (2024-10-22T07:40:20Z) - SceneCraft: An LLM Agent for Synthesizing 3D Scene as Blender Code [76.22337677728109]
SceneCraftはLarge Language Model (LLM)エージェントで、テキスト記述をBlender-executable Pythonスクリプトに変換する。
SceneCraftは、100個の3Dアセットで複雑なシーンをレンダリングする。
高度な抽象化、戦略的計画、ライブラリ学習を組み合わせることで、これらの課題に取り組みます。
論文 参考訳(メタデータ) (2024-03-02T16:16:26Z) - InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with
Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。
本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文 参考訳(メタデータ) (2024-02-07T10:09:00Z) - SceneWiz3D: Towards Text-guided 3D Scene Composition [134.71933134180782]
既存のアプローチでは、大規模なテキスト・ツー・イメージモデルを使用して3D表現を最適化するか、オブジェクト中心のデータセット上で3Dジェネレータをトレーニングする。
テキストから高忠実度3Dシーンを合成する新しい手法であるSceneWiz3Dを紹介する。
論文 参考訳(メタデータ) (2023-12-13T18:59:30Z) - Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。
我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文 参考訳(メタデータ) (2023-12-13T14:27:45Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Set-the-Scene: Global-Local Training for Generating Controllable NeRF
Scenes [68.14127205949073]
オブジェクトプロキシを用いて3Dシーンを合成するための新しいGlobalLocalトレーニングフレームワークを提案する。
プロキシを使うことで、個々の独立オブジェクトの配置を調整するなど、さまざまな編集オプションが実現可能であることを示す。
その結果,Set-the-Sceneはシーンの合成と操作に強力なソリューションを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-23T17:17:29Z) - DisCoScene: Spatially Disentangled Generative Radiance Fields for
Controllable 3D-aware Scene Synthesis [90.32352050266104]
DisCoSceneは高品質で制御可能なシーン合成のための3Daware生成モデルである。
グローバルな局所的差別を伴う2次元画像のみを学習することで、シーン全体をオブジェクト中心の生成フィールドに分解する。
挑戦的な屋外データセットを含む多くのシーンデータセットで最先端のパフォーマンスを示す。
論文 参考訳(メタデータ) (2022-12-22T18:59:59Z) - Static and Animated 3D Scene Generation from Free-form Text Descriptions [1.102914654802229]
本研究では,異なるタイプの自由形式のテキストシーン記述から静的な3Dシーンを生成することを目的とした,新しいパイプラインについて検討する。
最初の段階では、エンコーダ-デコーダニューラルアーキテクチャを用いて自由形式のテキストを符号化する。
第2段階では、生成された符号化に基づいて3Dシーンを生成する。
論文 参考訳(メタデータ) (2020-10-04T11:31:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。