論文の概要: AECV-Bench: Benchmarking Multimodal Models on Architectural and Engineering Drawings Understanding
- arxiv url: http://arxiv.org/abs/2601.04819v1
- Date: Thu, 08 Jan 2026 10:54:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.16937
- Title: AECV-Bench: Benchmarking Multimodal Models on Architectural and Engineering Drawings Understanding
- Title(参考訳): AECV-Bench: アーキテクチャとエンジニアリングの図面理解に関するマルチモーダルモデルのベンチマーク
- Authors: Aleksei Kondratenko, Mussie Birhane, Houssame E. Hsain, Guido Maciocci,
- Abstract要約: AEC人工物上でのマルチモーダルおよびヴィジュアル言語モデルを評価するためのベンチマークであるAECVBenchを提案する。
その結果、現在のシステムはドキュメントアシスタントと同様に機能するが、ロバストな描画リテラシーが欠如していることが示唆された。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AEC drawings encode geometry and semantics through symbols, layout conventions, and dense annotation, yet it remains unclear whether modern multimodal and vision-language models can reliably interpret this graphical language. We present AECV-Bench, a benchmark for evaluating multimodal and vision-language models on realistic AEC artefacts via two complementary use cases: (i) object counting on 120 high-quality floor plans (doors, windows, bedrooms, toilets), and (ii) drawing-grounded document QA spanning 192 question-answer pairs that test text extraction (OCR), instance counting, spatial reasoning, and comparative reasoning over common drawing regions. Object-counting performance is reported using per-field exact-match accuracy and MAPE results, while document-QA performance is reported using overall accuracy and per-category breakdowns with an LLM-as-a-judge scoring pipeline and targeted human adjudication for edge cases. Evaluating a broad set of state-of-the-art models under a unified protocol, we observe a stable capability gradient; OCR and text-centric document QA are strongest (up to 0.95 accuracy), spatial reasoning is moderate, and symbol-centric drawing understanding - especially reliable counting of doors and windows - remains unsolved (often 0.40-0.55 accuracy) with substantial proportional errors. These results suggest that current systems function well as document assistants but lack robust drawing literacy, motivating domain-specific representations and tool-augmented, human-in-the-loop workflows for an efficient AEC automation.
- Abstract(参考訳): AECの図面は、記号、レイアウト規則、密接なアノテーションを通じて幾何学と意味をエンコードしているが、現代のマルチモーダルおよび視覚言語モデルがこのグラフィカル言語を確実に解釈できるかどうかは不明である。
AECV-Benchは、現実的なAECアーティファクトのマルチモーダルおよびヴィジュアル言語モデルを評価するためのベンチマークである。
一120階建(戸、窓、寝室、トイレ)を数えるもの
(II) テキスト抽出(OCR)、インスタンスカウント、空間推論、一般的な描画領域に対する比較推論をテストする192の質問応答対にまたがる描画基底文書QA。
一方、文書QAでは、LLM-as-a-judgeスコアパイプラインと、エッジケースに対するヒトの適応による全体精度とカテゴリごとの分解を用いて、オブジェクトカウント性能を報告した。
OCRとテキスト中心の文書 QA は最強(精度 0.95 まで)であり、空間的推論は適度であり、シンボル中心の描画理解(特にドアと窓の信頼性の高い数え方)は相当な比例誤差で未解決(精度 0.40-0.55 以上)である。
これらの結果は、現在のシステムはドキュメントアシスタントと同様に機能するが、ロバストな描画リテラシー、ドメイン固有表現のモチベーション、効率的なAEC自動化のためのツール拡張されたヒューマン・イン・ザ・ループワークフローが欠けていることを示唆している。
関連論文リスト
- Continual Action Quality Assessment via Adaptive Manifold-Aligned Graph Regularization [53.82400605816587]
アクション品質アセスメント(AQA)は、ビデオにおける人間の行動を定量化し、スポーツスコアリング、リハビリテーション、スキル評価の応用を支援する。
大きな課題は、現実世界のシナリオにおける品質分布の非定常的な性質にある。
本稿では,進化する分布を扱うための連続学習機能を備えた連続AQA(Continuous AQA)を紹介する。
論文 参考訳(メタデータ) (2025-10-08T10:09:47Z) - AgenticIQA: An Agentic Framework for Adaptive and Interpretable Image Quality Assessment [69.06977852423564]
画像品質評価(IQA)は、人間の視覚系に根ざした知覚品質の定量化と解釈の両方を反映している。
AgenticIQAは、IQAを歪み検出、歪み解析、ツール選択、ツール実行の4つのサブタスクに分解する。
本稿では,IQAエージェントに適した大規模命令データセットであるAgenticIQA-200Kと,VLMベースのIQAエージェントの計画,実行,要約機能を評価するための最初のベンチマークであるAgenticIQA-Evalを紹介する。
論文 参考訳(メタデータ) (2025-09-30T09:37:01Z) - CRACQ: A Multi-Dimensional Approach To Automated Document Assessment [0.0]
CRACQは、コヒーレンス、リゴール、適切性、完全性、品質といった、f i v e特有の特性で文書を評価するのに適した多次元評価フレームワークである。
言語的、意味的、構造的なシグナルを累積評価に統合し、全体的および特性レベルの分析を可能にする。
論文 参考訳(メタデータ) (2025-09-26T17:01:54Z) - MinerU2.5: A Decoupled Vision-Language Model for Efficient High-Resolution Document Parsing [117.58619053719251]
MinerU2.5は、例外的な計算効率を維持しつつ、最先端の認識精度を実現する文書解析モデルである。
提案手法では,局所的なコンテンツ認識からグローバルなレイアウト解析を分離する,粗大な2段階解析戦略を採用している。
論文 参考訳(メタデータ) (2025-09-26T10:45:48Z) - From Drawings to Decisions: A Hybrid Vision-Language Framework for Parsing 2D Engineering Drawings into Structured Manufacturing Knowledge [0.352650106994433]
2Dエンジニアリング図面からの重要な情報は、デジタル製造の進歩に不可欠である。
手動の抽出は遅く、労働集約的であるが、一般的なOCRモデルは複雑なレイアウト、エンジニアリングシンボル、回転テキストのために失敗することが多い。
回転認識オブジェクト検出モデル(YOLOv11-obb)とトランスフォーマーに基づく視覚言語モデル(VLM)を統合するハイブリッドビジョン言語フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-20T17:10:01Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - VAULT: VAriable Unified Long Text Representation for Machine Reading
Comprehension [31.639069657951747]
機械読取の既存のモデルは、段落表現と分類で長いテキストをモデル化するために複雑なモデルアーキテクチャを必要とする。
長文入力からの文脈化表現に基づく,MDC の軽量かつ並列効率なパラメタ表現 VAULT を提案する。
論文 参考訳(メタデータ) (2021-05-07T13:03:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。