論文の概要: How Far Are Vision-Language Models from Constructing the Real World? A Benchmark for Physical Generative Reasoning
- arxiv url: http://arxiv.org/abs/2603.24866v1
- Date: Wed, 25 Mar 2026 23:13:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-27 20:52:48.014497
- Title: How Far Are Vision-Language Models from Constructing the Real World? A Benchmark for Physical Generative Reasoning
- Title(参考訳): 実世界構築から視線モデルまでの距離 : 物理生成推論のためのベンチマーク
- Authors: Luyu Yang, Yutong Dai, An Yan, Viraj Prabhu, Ran Xu, Zeyuan Chen,
- Abstract要約: 物理生成推論のための新しいベンチマークであるDreamHouseを紹介する。
我々はこのベンチマークを、完全に体系化されたエンジニアリング標準を持つ住宅用木枠構築に基礎を置いている。
最終的なアウトプットのみを評価する静的ベンチマークとは異なり、DreamHouseは反復的なエージェントインタラクションをサポートする。
- 参考スコア(独自算出の注目度): 20.337890525032858
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The physical world is not merely visual; it is governed by rigorous structural and procedural constraints. Yet, the evaluation of vision-language models (VLMs) remains heavily skewed toward perceptual realism, prioritizing the generation of visually plausible 3D layouts, shapes, and appearances. Current benchmarks rarely test whether models grasp the step-by-step processes and physical dependencies required to actually build these artifacts, a capability essential for automating design-to-construction pipelines. To address this, we introduce DreamHouse, a novel benchmark for physical generative reasoning: the capacity to synthesize artifacts that concurrently satisfy geometric, structural, constructability, and code-compliance constraints. We ground this benchmark in residential timber-frame construction, a domain with fully codified engineering standards and objectively verifiable correctness. We curate over 26,000 structures spanning 13 architectural styles, ach verified to construction-document standards (LOD 350) and develop a deterministic 10-test structural validation framework. Unlike static benchmarks that assess only final outputs, DreamHouse supports iterative agentic interaction. Models observe intermediate build states, generate construction actions, and receive structured environmental feedback, enabling a fine-grained evaluation of planning, structural reasoning, and self-correction. Extensive experiments with state-of-the-art VLMs reveal substantial capability gaps that are largely invisible on existing leaderboards. These findings establish physical validity as a critical evaluation axis orthogonal to visual realism, highlighting physical generative reasoning as a distinct and underdeveloped frontier in multimodal intelligence. Available at https://luluyuyuyang.github.io/dreamhouse
- Abstract(参考訳): 物理的な世界は単なる視覚的ではなく、厳密な構造と手続き的な制約によって支配されている。
しかし、視覚言語モデル(VLM)の評価は、視覚的に可視な3Dレイアウト、形状、外観の生成を優先し、知覚的リアリズムに強く依存している。
現在のベンチマークでは、モデルがステップバイステップのプロセスと、これらのアーティファクトを実際に構築するために必要な物理的依存関係を把握しているかどうかをテストすることはめったにない。
これを解決するために,物理生成推論のための新しいベンチマークであるDreamHouseを紹介した。幾何学的,構造的,構造的,コード準拠性の制約を同時に満たすアーティファクトを合成する能力だ。
我々はこのベンチマークを、完全に体系化されたエンジニアリング標準と客観的に検証可能な正当性を持つドメインである住宅用木枠構築に基礎を置いている。
13のアーキテクチャスタイルにまたがる26,000以上の構造をキュレートし、建設文書標準(LOD 350)に準拠し、決定論的 10 個の構造検証フレームワークを開発した。
最終的なアウトプットのみを評価する静的ベンチマークとは異なり、DreamHouseは反復的なエージェントインタラクションをサポートする。
モデルは中間的なビルド状態を観察し、建設動作を生成し、構造化された環境フィードバックを受け取り、計画、構造的推論、自己補正のきめ細かい評価を可能にする。
最先端のVLMによる大規模な実験では、既存のリーダボードではほとんど見えないような、相当な能力ギャップが明らかになっている。
これらの知見は、視覚リアリズムに直交する批判的評価軸としての身体的妥当性を確立し、多モード知能における未発達のフロンティアとして、身体的生成的推論を強調した。
https://luluyuyang.github.io/dreamhouseで入手できる。
関連論文リスト
- The Trinity of Consistency as a Defining Principle for General World Models [106.16462830681452]
一般世界モデルは、客観的物理法則を学習し、シミュレートし、推論することができる。
本稿では,一般世界モデルに必要な基本的特性を定義するための理論的枠組みを提案する。
我々の研究は、現在のシステムの限界と将来の進歩のためのアーキテクチャ要件の両方を明確にし、一般的な世界モデルへの原則的な経路を確立します。
論文 参考訳(メタデータ) (2026-02-26T16:15:55Z) - From Perception to Action: An Interactive Benchmark for Vision Reasoning [51.11355591375073]
Causal Hierarchy of Actions and Interactions (CHAIN)ベンチマークは、モデルが物理的制約に基づいて構造化されたアクションシーケンスを理解し、計画し、実行できるかを評価するために設計された。
CHAINは、受動的知覚からアクティブな問題解決、機械パズルのインターロックや3D積み重ね、パッキングといったタスクへと評価をシフトする。
以上の結果から,トップパフォーマンスモデルでは,物理構造や因果制約の内在化に苦慮し,信頼性の高い長期計画の作成に失敗することが多く,認識された構造を効果的に翻訳することができないことが示唆された。
論文 参考訳(メタデータ) (2026-02-24T15:33:02Z) - Rethinking Scientific Modeling: Toward Physically Consistent and Simulation-Executable Programmatic Generation [8.067859101380389]
非実行可能または物理的に一貫性のない出力は、厳密な工学的制約の下では依然として一般的である。
物理に一貫性のある自動建築モデリングのための枠組みを提案する。
CivilInstructは、構造工学の知識と制約推論を形式化するドメイン固有のデータセットとして導入された。
MBEvalは、実行可能性と構造的ダイナミクスの一貫性を評価する検証駆動ベンチマークとして提示される。
論文 参考訳(メタデータ) (2026-02-06T06:57:04Z) - WorldLens: Full-Spectrum Evaluations of Driving World Models in Real World [100.68103378427567]
エージェントは現実的な4D駆動環境を合成し、説得力があるように見えるが、物理的または行動的に失敗することが多い。
モデルがどのように構築され、理解され、その生成された世界の中でどのように振る舞うかを評価するフルスペクトルベンチマークであるWorldLensを紹介します。
さらに、数値的なスコアとテキストの合理性を備えた人間の注釈付きビデオの大規模データセット WorldLens-26K を構築し、WorldLens-Agent を開発した。
論文 参考訳(メタデータ) (2025-12-11T18:59:58Z) - Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark [48.02995109011304]
ビデオ生成モデルは、Chain-of-Frames (CoF)推論を通じて、潜在的な世界シミュレータとして登場した。
既存のベンチマークは、忠実さやアライメントに重点を置いており、CoFの推論を評価していない。
我々は,認知科学と実世界のAI応用を基盤としたフレームワークであるGen-ViReを紹介する。
論文 参考訳(メタデータ) (2025-11-17T19:11:39Z) - Factuality Matters: When Image Generation and Editing Meet Structured Visuals [46.627460447235855]
我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。
FLUX.1 KontextとVLMを統合する統一モデルを訓練する。
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
論文 参考訳(メタデータ) (2025-10-06T17:56:55Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - Model Criticism for Long-Form Text Generation [113.13900836015122]
我々は,テキストの高レベル構造を評価するために,潜在空間におけるモデル批判という統計ツールを適用した。
我々は,コヒーレンス,コア,トピックスという,ハイレベルな談話の3つの代表的な側面について実験を行った。
トランスフォーマーベースの言語モデルでは、トピック構造をキャプチャできるが、構造コヒーレンスやモデリングコアスを維持するのが難しくなる。
論文 参考訳(メタデータ) (2022-10-16T04:35:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。