Fugu-MT 論文翻訳(概要): The Scene Language: Representing Scenes with Programs, Words, and Embeddings

論文の概要: The Scene Language: Representing Scenes with Programs, Words, and Embeddings

arxiv url: http://arxiv.org/abs/2410.16770v1
Date: Tue, 22 Oct 2024 07:40:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:38.927029
Title: The Scene Language: Representing Scenes with Programs, Words, and Embeddings
Title（参考訳）: The Scene Language: プログラム、単語、埋め込みによるシーン表現
Authors: Yunzhi Zhang, Zizhang Li, Matt Zhou, Shangzhe Wu, Jiajun Wu,
Abstract要約: 本稿では,視覚シーンの構造,意味,アイデンティティを簡潔かつ正確に記述した視覚シーン表現であるシーン言語を紹介する。シーン内のエンティティの階層構造と関係構造を指定するプログラム、各エンティティのセマンティッククラスを要約する自然言語の単語、各エンティティの視覚的アイデンティティをキャプチャする埋め込みである。
参考スコア（独自算出の注目度）: 23.707974056165042
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: We introduce the Scene Language, a visual scene representation that concisely and precisely describes the structure, semantics, and identity of visual scenes. It represents a scene with three key components: a program that specifies the hierarchical and relational structure of entities in the scene, words in natural language that summarize the semantic class of each entity, and embeddings that capture the visual identity of each entity. This representation can be inferred from pre-trained language models via a training-free inference technique, given text or image inputs. The resulting scene can be rendered into images using traditional, neural, or hybrid graphics renderers. Together, this forms a robust, automated system for high-quality 3D and 4D scene generation. Compared with existing representations like scene graphs, our proposed Scene Language generates complex scenes with higher fidelity, while explicitly modeling the scene structures to enable precise control and editing.
Abstract（参考訳）: 本稿では,視覚シーンの構造,意味,アイデンティティを簡潔かつ正確に記述した視覚シーン表現であるシーン言語を紹介する。シーン内のエンティティの階層構造と関係構造を指定するプログラム、各エンティティのセマンティッククラスを要約する自然言語の単語、各エンティティの視覚的アイデンティティをキャプチャする埋め込みである。この表現は、与えられたテキストや画像入力のトレーニング不要な推論技術によって、事前訓練された言語モデルから推論することができる。結果のシーンは、従来の、ニューラル、ハイブリッドのグラフィックレンダラーを使用して画像に描画できる。同時に、高品質な3Dおよび4Dシーン生成のための堅牢で自動化されたシステムを形成する。シーングラフのような既存の表現と比較すると,提案するシーン言語はより忠実な複雑なシーンを生成すると同時に,シーン構造を明示的にモデル化し,正確な制御と編集を可能にする。

関連論文リスト

Decorum: A Language-Based Approach For Style-Conditioned Synthesis of Indoor 3D Scenes [18.232310061758298]
3次元屋内シーン生成は,デジタルおよび実環境の設計において重要な課題である。このタスクの既存の方法は、これらの属性に対して非常に限定的な制御を示す。提案手法であるDecorumにより,自然言語によるシーン生成プロセスの制御が可能となる。
論文参考訳（メタデータ） (2025-03-23T17:48:44Z)
Generate Any Scene: Evaluating and Improving Text-to-Vision Generation with Scene Graph Programming [44.32980579195508]
シーングラフを列挙するフレームワークであるGenerate Any Sceneを紹介した。 Any Sceneを生成することで、各シーングラフをキャプションに変換し、テキスト・ツー・ビジョンモデルのスケーラブルな評価を可能にする。我々は,テキスト・ツー・イメージ,テキスト・ツー・ビデオ,テキスト・ツー・3Dモデルに対して広範囲な評価を行い,モデル性能に関する重要な知見を提示する。
論文参考訳（メタデータ） (2024-12-11T09:17:39Z)
SceneScript: Reconstructing Scenes With An Autoregressive Structured Language Model [7.707324214953882]
SceneScriptは、構造化言語コマンドのシーケンスとして、フルシーンモデルを生成するメソッドである。本手法は,符号化された視覚データから直接構造化言語コマンドのセットを推論する。提案手法は,3次元オブジェクト検出において,構造的レイアウト推定における最先端の成果と競合する結果を与える。
論文参考訳（メタデータ） (2024-03-19T18:01:29Z)
InstructScene: Instruction-Driven 3D Indoor Scene Synthesis with Semantic Graph Prior [27.773451301040424]
InstructSceneは、セマンティックグラフとレイアウトデコーダを統合する新しい生成フレームワークである。本稿では,提案手法が既存の最先端手法をはるかに上回ることを示す。
論文参考訳（メタデータ） (2024-02-07T10:09:00Z)
Chat-Scene: Bridging 3D Scene and Large Language Models with Object Identifiers [65.51132104404051]
オブジェクトレベルのシーンと対話するために、オブジェクト識別子とオブジェクト中心表現を導入する。我々のモデルは、ScanRefer、Multi3DRefer、Scan2Cap、ScanQA、SQA3Dなど、既存のベンチマーク手法よりも大幅に優れています。
論文参考訳（メタデータ） (2023-12-13T14:27:45Z)
GraphDreamer: Compositional 3D Scene Synthesis from Scene Graphs [74.98581417902201]
シーングラフから合成3Dシーンを生成するための新しいフレームワークを提案する。シーングラフにおけるノード情報とエッジ情報を活用することにより,事前学習したテキスト・画像拡散モデルをよりよく活用する。 GraphDreamerの有効性を検証するために,定性的および定量的な実験を行った。
論文参考訳（メタデータ） (2023-11-30T18:59:58Z)
CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文参考訳（メタデータ） (2023-05-25T17:39:13Z)
Understanding Cross-modal Interactions in V&L Models that Generate Scene Descriptions [3.7957452405531256]
本稿では,現在最先端の視覚・言語モデルであるVinVLによる映像のシーンレベルでのキャプションの可能性について検討する。映像中のオブジェクトレベルの概念を識別する能力を失うことなく、少量のキュレートされたデータでシーン記述を生成することができることを示す。本研究は,これらの結果と,シーン知覚に関する計算・認知科学研究の知見との類似性について論じる。
論文参考訳（メタデータ） (2022-11-09T15:33:51Z)
Neural Groundplans: Persistent Neural Scene Representations from a Single Image [90.04272671464238]
本稿では,シーンの2次元画像観察を永続的な3次元シーン表現にマッピングする手法を提案する。本稿では,永続的でメモリ効率のよいシーン表現として,条件付きニューラルグラウンドプランを提案する。
論文参考訳（メタデータ） (2022-07-22T17:41:24Z)
Control-NeRF: Editable Feature Volumes for Scene Rendering and Manipulation [58.16911861917018]
高品質な新規ビュー合成を実現しつつ,フレキシブルな3次元画像コンテンツ操作を実現するための新しい手法を提案する。モデルペアはシーンに依存しないニューラルネットワークを用いてシーン固有の特徴ボリュームを学習する。我々は、シーンの混合、オブジェクトの変形、シーンへのオブジェクト挿入など、さまざまなシーン操作を実証すると同時に、写真リアリスティックな結果も生成する。
論文参考訳（メタデータ） (2022-04-22T17:57:00Z)
Neural Scene Graphs for Dynamic Scenes [57.65413768984925]
動的シーンをシーングラフに分解する最初のニューラルレンダリング手法を提案する。我々は暗黙的に符号化されたシーンと、単一の暗黙の関数でオブジェクトを記述するために共同で学習された潜在表現を組み合わせる。
論文参考訳（メタデータ） (2020-11-20T12:37:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。