論文の概要: Can Large Multimodal Models Inspect Buildings? A Hierarchical Benchmark for Structural Pathology Reasoning
- arxiv url: http://arxiv.org/abs/2603.20148v1
- Date: Fri, 20 Mar 2026 17:24:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-23 19:48:39.253945
- Title: Can Large Multimodal Models Inspect Buildings? A Hierarchical Benchmark for Structural Pathology Reasoning
- Title(参考訳): 大規模マルチモーダルモデルで建物を検査できるか? : 構造病理学的推論のための階層的ベンチマーク
- Authors: Hui Zhong, Yichun Gao, Luyan Liu, Hai Yang, Wang Wang, Haowei Zhang, Xinhu Zheng,
- Abstract要約: 大規模マルチモーダルモデル(LMM)は、アクティブ推論へのパラダイムシフトを約束する。
textitDefectBenchは基本的な意味認識を超えてLMMを問うために設計された最初のベンチマークである。
この作業は厳格なベンチマーク標準と高品質なオープンソースデータベースの両方を提供する。
- 参考スコア(独自算出の注目度): 7.005450139695288
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Automated building facade inspection is a critical component of urban resilience and smart city maintenance. Traditionally, this field has relied on specialized discriminative models (e.g., YOLO, Mask R-CNN) that excel at pixel-level localization but are constrained to passive perception and worse generization without the visual understandng to interpret structural topology. Large Multimodal Models (LMMs) promise a paradigm shift toward active reasoning, yet their application in such high-stakes engineering domains lacks rigorous evaluation standards. To bridge this gap, we introduce a human-in-the-loop semi-automated annotation framework, leveraging expert-proposal verification to unify 12 fragmented datasets into a standardized, hierarchical ontology. Building on this foundation, we present \textit{DefectBench}, the first multi-dimensional benchmark designed to interrogate LMMs beyond basic semantic recognition. \textit{DefectBench} evaluates 18 state-of-the-art (SOTA) LMMs across three escalating cognitive dimensions: Semantic Perception, Spatial Localization, and Generative Geometry Segmentation. Extensive experiments reveal that while current LMMs demonstrate exceptional topological awareness and semantic understanding (effectively diagnosing "what" and "how"), they exhibit significant deficiencies in metric localization precision ("where"). Crucially, however, we validate the viability of zero-shot generative segmentation, showing that general-purpose foundation models can rival specialized supervised networks without domain-specific training. This work provides both a rigorous benchmarking standard and a high-quality open-source database, establishing a new baseline for the advancement of autonomous AI agents in civil engineering.
- Abstract(参考訳): 自動建築ファサード検査は、都市のレジリエンスとスマートシティメンテナンスの重要な要素である。
伝統的に、この分野は、ピクセルレベルのローカライゼーションにおいて優れているが、視覚的理解なしで構造トポロジーを理解することなく受動的知覚やより悪い生成に制約される特殊な識別モデル(例えば、YOLO、Mask R-CNN)に依存してきた。
大規模マルチモーダルモデル(LMM)は、活発な推論へのパラダイムシフトを約束するが、そのような高度なエンジニアリング領域におけるそれらの応用は厳密な評価基準を欠いている。
このギャップを埋めるために、専門家による検証を活用して12の断片化されたデータセットを標準化された階層的オントロジーに統一する、Human-in-the-loop半自動アノテーションフレームワークを導入する。
この基礎の上に構築された「textit{DefectBench}」は、基本的な意味認識以上のLMMを問うために設計された最初の多次元ベンチマークである。
意味的知覚(Semantic Perception)、空間的局所化(Spatial Localization)、生成幾何学セグメンテーション(Generative Geometry Segmentation)である。
大規模な実験により、現在のLMMは例外的なトポロジカルな認識と意味的理解(「何」と「どのように」を効果的に診断するか)を示す一方で、メートル法的ローカライゼーション精度("where")において重大な欠陥を示すことが明らかとなった。
しかし、重要なことは、ゼロショット生成セグメンテーションの実現可能性を検証することであり、汎用基盤モデルがドメイン固有のトレーニングを伴わずに、特別な教師付きネットワークと競合できることを示している。
この作業は厳格なベンチマーク標準と高品質なオープンソースデータベースの両方を提供し、土木工学における自律AIエージェントの進歩のための新たなベースラインを確立する。
関連論文リスト
- Topo-R1: Detecting Topological Anomalies via Vision-Language Models [42.86510112477789]
トポロジカルな正確性は、血管、神経線維、道路網などの構造にとって重要である。
我々は,様々なトポロジ的異常を検証可能なアノテーションで合成する自動データキュレーションパイプラインを開発した。
次に、トポロジを意識した視覚言語モデルを実現するフレームワークであるTopo-R1を紹介する。
論文 参考訳(メタデータ) (2026-03-13T15:05:04Z) - Diagnosing Generalization Failures from Representational Geometry Markers [8.403001493770427]
医用バイオマーカーにインスパイアされた一般化失敗について検討する。
我々は,ネットワークマーカーを設計,テストし,構造や機能リンクの探索,予後指標の同定,実環境における予測の検証を行う。
この研究は、表現幾何学が隠れた脆弱性を隠蔽し、モデル選択とAI解釈可能性に関するより堅牢なガイダンスを提供することを示した。
論文 参考訳(メタデータ) (2026-03-02T13:59:19Z) - Agentic Adversarial QA for Improving Domain-Specific LLMs [53.00642389531106]
大規模言語モデル(LLM)は、しばしば専門分野に効果的に対応するのに苦労する。
本稿では,意味論的課題の集合をコンパクトに生成する逆問題生成フレームワークを提案する。
論文 参考訳(メタデータ) (2026-02-20T10:53:09Z) - LLM-Driven Ontology Construction for Enterprise Knowledge Graphs [0.0]
本稿では,企業データからのドメイン固有非構造生成を高速化するパイプラインであるOntoEKGを紹介する。
提案手法では,モデルタスクを,コアクラスとプロパティを識別する抽出モジュールと,それらの要素を論理的に階層化し,それらを標準RDFにシリアライズするエンテーメントモジュールという,2つの異なるフェーズに分解する。
エンドツーエンドの構築のための包括的なベンチマークの欠如に対処するため、私たちは、データ、ファイナンス、ロジスティックスの各分野にわたる文書から派生した、新たな評価データセットを採用しました。
論文 参考訳(メタデータ) (2026-02-01T15:13:30Z) - From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - Beyond Binary Classification: A Semi-supervised Approach to Generalized AI-generated Image Detection [1.189955933770711]
現在の法医学における重大な脆弱性は、検出器がクロスジェネレータの一般化を達成できないことである。
本稿では,「フェイク」クラス内の潜在アーキテクチャパターンを発見することによって,バイナリ分類を強化する半教師付きアプローチを提案する。
論文 参考訳(メタデータ) (2025-11-23T16:02:27Z) - LTD-Bench: Evaluating Large Language Models by Letting Them Draw [57.237152905238084]
LTD-Benchは、大規模言語モデル(LLM)のブレークスルーベンチマークである。
LLMの評価を抽象的なスコアから直接観察可能な視覚出力に変換する。
LTD-Benchの視覚出力は強力な診断分析を可能にし、モデル類似性を調べるための潜在的アプローチを提供する。
論文 参考訳(メタデータ) (2025-11-04T08:11:23Z) - RealUnify: Do Unified Models Truly Benefit from Unification? A Comprehensive Benchmark [71.3555284685426]
本稿では,双方向機能相乗効果を評価するためのベンチマークであるRealUnifyを紹介する。
RealUnifyは、10のカテゴリと32のサブタスクにまたがる、細心の注意を払ってアノテートされた1000のインスタンスで構成されている。
現在の統一モデルは、効果的な相乗効果を達成するのに依然として苦労しており、アーキテクチャの統一だけでは不十分であることを示している。
論文 参考訳(メタデータ) (2025-09-29T15:07:28Z) - LLM-as-classifier: Semi-Supervised, Iterative Framework for Hierarchical Text Classification using Large Language Models [0.0]
大規模言語モデル(LLM)は、構造化されていないテキストデータを解析する前例のない機能を提供している。
標準的な微調整アプローチはリソース集約的であり、実世界のデータ分散の動的な性質にしばしば苦労する。
論文 参考訳(メタデータ) (2025-08-22T15:47:17Z) - A Survey of Frontiers in LLM Reasoning: Inference Scaling, Learning to Reason, and Agentic Systems [93.8285345915925]
推論(Reasoning)は、論理的推論、問題解決、意思決定を可能にする基本的な認知プロセスである。
大規模言語モデル(LLM)の急速な進歩により、推論は高度なAIシステムを区別する重要な能力として浮上した。
我々は,(1)推論が達成される段階を定義するレジーム,(2)推論プロセスに関与するコンポーネントを決定するアーキテクチャの2つの側面に沿って既存の手法を分類する。
論文 参考訳(メタデータ) (2025-04-12T01:27:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。