論文の概要: SceneCritic: A Symbolic Evaluator for 3D Indoor Scene Synthesis
- arxiv url: http://arxiv.org/abs/2604.13035v1
- Date: Tue, 14 Apr 2026 17:59:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-15 19:11:32.60985
- Title: SceneCritic: A Symbolic Evaluator for 3D Indoor Scene Synthesis
- Title(参考訳): 3次元室内シーン合成のためのシンボリック評価器SceneCritic
- Authors: Kathakoli Sengupta, Kai Ao, Paola Cascante-Bonilla,
- Abstract要約: SceneCriticは、フロアプランレベルのレイアウトのための象徴的評価器である。
SceneCriticの制約は、構造化空間オントロジーであるSceneOntoに基礎を置いている。
VLMによる評価よりも,SceneCriticは人間の判断と極めてよく一致していることを示す。
- 参考スコア(独自算出の注目度): 6.182838033073788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) and Vision-Language Models (VLMs) increasingly generate indoor scenes through intermediate structures such as layouts and scene graphs, yet evaluation still relies on LLM or VLM judges that score rendered views, making judgments sensitive to viewpoint, prompt phrasing, and hallucination. When the evaluator is unstable, it becomes difficult to determine whether a model has produced a spatially plausible scene or whether the output score reflects the choice of viewpoint, rendering, or prompt. We introduce SceneCritic, a symbolic evaluator for floor-plan-level layouts. SceneCritic's constraints are grounded in SceneOnto, a structured spatial ontology we construct by aggregating indoor scene priors from 3D-FRONT, ScanNet, and Visual Genome. SceneOnto traverses this ontology to jointly verify semantic, orientation, and geometric coherence across object relationships, providing object-level and relationship-level assessments that identify specific violations and successful placements. Furthermore, we pair SceneCritic with an iterative refinement test bed that probes how models build and revise spatial structure under different critic modalities: a rule-based critic using collision constraints as feedback, an LLM critic operating on the layout as text, and a VLM critic operating on rendered observations. Through extensive experiments, we show that (a) SceneCritic aligns substantially better with human judgments than VLM-based evaluators, (b) text-only LLMs can outperform VLMs on semantic layout quality, and (c) image-based VLM refinement is the most effective critic modality for semantic and orientation correction.
- Abstract(参考訳): 大規模言語モデル (LLM) と視覚言語モデル (VLM) はレイアウトやシーングラフのような中間構造を通して屋内シーンを生成する傾向にあるが、それでも評価は、ビューを描画し、視点に敏感な判断を下し、言葉遣いや幻覚を起こさせる LLM や VLM の判断に依存している。
評価装置が不安定な場合、モデルが空間的に妥当なシーンを生み出したか、出力スコアが視点の選択、レンダリング、またはプロンプトを反映しているかを判断することが困難になる。
SceneCriticは、フロアプランレベルのレイアウトのための象徴的評価器である。
SceneCriticの制約は、3D-FRONT、ScanNet、Visual Genomeから屋内シーンを集約することで構築する空間オントロジーであるSceneOntoに基礎を置いている。
SceneOntoはこのオントロジーを横切り、オブジェクト間のセマンティック、オリエンテーション、幾何学的コヒーレンスを共同で検証し、特定の違反と成功した配置を特定するオブジェクトレベルと関係レベルの評価を提供する。
さらに、SceneCriticと、異なる批判モダリティの下でモデルがどのように空間構造を構築し、修正するかを探索する反復的精査テストベッドを組み合わせます。
広範な実験を通して
(a)SceneCriticは、VLMベースの評価器よりも人間の判断にかなり適している。
b)テキストのみのLLMは、セマンティックレイアウトの品質でVLMを上回ります。
(c)画像に基づくVLM精細化は、意味的および向きの補正において最も効果的な批判モダリティである。
関連論文リスト
- From Drop-off to Recovery: A Mechanistic Analysis of Segmentation in MLLMs [50.185593677108436]
マルチモーダル大言語モデル(MLLM)は、ピクセルレベルの視覚タスクにますます適用されているが、空間的理解の本質的な能力は理解されていない。
本稿では,MLLMパイプライン全体(ビジョンエンコーダ,アダプタ,LSM)の階層的線形探索によるセグメント化能力について検討する。
論文 参考訳(メタデータ) (2026-03-18T00:22:15Z) - GameUIAgent: An LLM-Powered Framework for Automated Game UI Design with Structured Intermediate Representation [10.74393288520677]
ゲームUIのデザインは、希少層にまたがる一貫した視覚的アセットを必要とするが、手動のプロセスが主流である。
本稿では、自然言語記述を編集可能なFigma設計に変換する、GameUIAgent LLMを利用したエージェントフレームワークを提案する。
6段階のニューロシンボリックパイプラインは、LCM生成、決定論的後処理、反復自己補正のためのビジョンランゲージモデル(VLM)誘導反射制御器(RC)を組み合わせる。
論文 参考訳(メタデータ) (2026-03-16T01:57:56Z) - Vision language models are unreliable at trivial spatial cognition [0.2902243522110345]
視覚言語モデル(VLM)は、画像から関連する視覚空間情報を抽出するように設計されている。
そこで我々は,テーブル上に配置されたオブジェクトの3Dシーンを画像で表現したベンチマークデータセットであるTableTestを開発し,それを最先端のVLMの評価に使用した。
結果は、同等の記述を使用するプロンプトの小さなバリエーションによって、パフォーマンスが劣化する可能性があることを示している。
論文 参考訳(メタデータ) (2025-04-22T17:38:01Z) - Hierarchically-Structured Open-Vocabulary Indoor Scene Synthesis with Pre-trained Large Language Model [14.70850176122733]
本稿では,大規模言語モデル(LLM)を用いて階層的に構造化されたシーン記述を生成し,シーンレイアウトを計算することを提案する。
具体的には、オブジェクト間の微粒な相対位置を推測するために階層型ネットワークを訓練する。
また,オープン語彙のシーン合成とインタラクティブなシーンデザインの結果を,アプリケーションにおけるアプローチの強みを示すために提示する。
論文 参考訳(メタデータ) (2025-02-15T05:04:14Z) - LayoutVLM: Differentiable Optimization of 3D Layout via Vision-Language Models [57.92316645992816]
空間的推論は人間の認知の基本的側面であり、三次元空間における物体の直感的な理解と操作を可能にする。
視覚言語モデル(VLM)のセマンティック知識を活用するフレームワークおよびシーンレイアウト表現であるLayoutVLMを紹介する。
本稿では,既存のシーンデータセットから抽出したシーンレイアウト表現を用いた微調整VLMによる推論性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-03T06:15:04Z) - Mixed Diffusion for 3D Indoor Scene Synthesis [55.94569112629208]
提案するMiDiffusionは,可塑性3次元屋内シーンを合成するための混合離散連続拡散モデルである。
床条件の3次元シーン合成において,最先端の自己回帰モデルおよび拡散モデルより優れることを示す。
論文 参考訳(メタデータ) (2024-05-31T17:54:52Z) - Prismatic VLMs: Investigating the Design Space of Visually-Conditioned Language Models [73.40350756742231]
視覚条件付き言語モデル(VLM)は、視覚対話、シーン理解、ロボットタスク計画などのアプリケーションに採用されている。
新しいリリースの量は多いが、イメージ前処理、アーキテクチャ、最適化に関する重要な設計決定は未調査である。
論文 参考訳(メタデータ) (2024-02-12T18:21:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。