論文の概要: Enginuity: A Dataset and Benchmark for Vision-Language Understanding of Engineering Diagrams
- arxiv url: http://arxiv.org/abs/2606.03410v1
- Date: Tue, 02 Jun 2026 09:54:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 22:00:04.919365
- Title: Enginuity: A Dataset and Benchmark for Vision-Language Understanding of Engineering Diagrams
- Title(参考訳): Enginuity: エンジニアリングダイアグラムの視覚言語理解のためのデータセットとベンチマーク
- Authors: Abhishek Kumar, Isha Motiyani, Tilak Kasturi, Ethan Seefried, Prahitha Movva, Tirthankar Ghosal,
- Abstract要約: Enginuityは、エンジニアリング図上でビジュアル言語モデルを評価するための、最初のオープンデータセットとベンチマークである。
我々は、米軍部隊のコーパス上の2つのタスクを定義し、構造化された部品テーブル抽出と自由形視覚図質問応答というマニュアルを修復する。
ゼロショットおよびチェーン・オブ・フォアプロンプトによる4つのフロンティアVLMの評価を行った。
- 参考スコア(独自算出の注目度): 8.001015579487921
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Engineering diagrams pose a distinct challenge for vision-language models: unlike natural images or general documents, they encode information through dense spatial layouts, domain-specific symbols, and cross-references between visual callouts and structured parts tables. Despite their centrality to service, repair, and design workflows, there is no public benchmark for measuring VLM capabilities in this domain; existing datasets primarily focus on flowcharts, scientific figures, or business documents. To address this gap, we introduce Enginuity, the first open dataset and benchmark for evaluating VLMs on complex engineering diagrams. We define two tasks over a corpus of U.S. military service and repair manuals: structured parts-table extraction (Task 1) and free-form visual diagram question answering (VQA)(Task 2) for benchmarking. We evaluate four frontier VLMs (GPT-5.2 Chat, Claude Opus 4.7, Gemma 4, Qwen3-VL-32B-Instruct) under zero-shot and chain-of-thought prompting. On Task 1, models reach Recall@all of 0.61-0.87 but Token F1pen of only 0.03-0.18, exposing a systematic gap between part identification and description fidelity. Task 2 reveals a consistent factual-reasoning gap across all models. A supporting analysis shows that token-overlap metrics under-report model capability on technical descriptions by 2-6x relative to semantic similarity, motivating LLM-as-judge calibration for domain-specific evaluation. We release the dataset, annotations, evaluation harness, and per-sample model outputs to support a reproducible study of VLM capability on engineering content.
- Abstract(参考訳): 自然画像や一般的な文書とは異なり、密集した空間配置、ドメイン固有のシンボル、視覚的なコールアウトと構造化された部品テーブル間の相互参照を通じて情報をエンコードする。
サービス、修復、設計ワークフローの中心性にもかかわらず、この領域ではVLMの能力を測定するための公開ベンチマークは存在せず、既存のデータセットは主にフローチャート、科学図、ビジネスドキュメントに焦点を当てている。
このギャップに対処するために、複雑なエンジニアリング図上でVLMを評価するための最初のオープンデータセットとベンチマークであるEnginuityを紹介します。
我々は、米軍部隊のコーパス上の2つのタスクを定義し、マニュアルを修復する:構造化部品テーブル抽出(Task)
1)自由形視覚図質問応答(VQA)(Task)
2) ベンチマーク用。
GPT-5.2 Chat, Claude Opus 4.7, Gemma 4, Qwen3-VL-32B-Instruct) の4つのフロンティア VLMをゼロショットおよびチェーン・オブ・シークレット・プロンプトで評価した。
Task 1 では、Recall@all は 0.61-0.87 であるが、Token F1pen は 0.03-0.18 しかなく、部品の識別と記述の忠実さの間に体系的なギャップを露呈している。
タスク2は、すべてのモデル間で一貫した事実推論のギャップを明らかにします。
分析結果から, 意味的類似性に対して2~6倍の技術的記述に基づいて, トークンオーバーラップの指標を抽出し, ドメイン固有評価のためのLCM-as-judgeキャリブレーションを動機付けていることがわかった。
我々は、エンジニアリングコンテンツにおけるVLM機能の再現可能な研究を支援するために、データセット、アノテーション、評価ハーネス、サンプルごとのモデル出力をリリースする。
関連論文リスト
- Can Vision Language Models Assess Graphic Design Aesthetics? A Benchmark, Evaluation, and Dataset Perspective [43.433154981521234]
グラフィックデザインの美的品質を評価することは視覚コミュニケーションの中心であるが、視覚言語モデル(VLM)では未熟である。
本研究では,4次元,12指標,3つの完全定量化タスクを対象とする総合ベンチマークであるAesEval-Benchを紹介する。
論文 参考訳(メタデータ) (2026-03-01T12:55:39Z) - A Multi-Stage Hybrid Framework for Automated Interpretation of Multi-View Engineering Drawings Using Vision Language Model [0.044780965967547055]
本稿では,2次元多視点エンジニアリング図面の自動解釈のための3段階ハイブリッドフレームワークを提案する。
YOLOv11-detは、ビュー、タイトルブロック、ノートなどのキー領域をローカライズするレイアウトセグメンテーションを実行する。
第2ステージでは、CAD対応のYOLOv11-obbを使用して、測定値、GD&Tシンボル、表面粗さインジケータなど、アノテーションのきめ細かい検出を行う。
第3ステージでは、セマンティックコンテンツ解析に2つのDonutベースのOCRフリーVLMを使用している。
論文 参考訳(メタデータ) (2025-10-23T09:07:31Z) - Vision-G1: Towards General Vision Language Reasoning with Multi-Domain Data Curation [64.23194519770897]
8次元にわたる46のデータソースから、総合的なRL対応のビジュアル推論データセットを構築します。
このデータセットから高品質なトレーニングサンプルを識別するために,影響関数に基づくデータ選択と難易度に基づくフィルタリング手法を提案する。
我々はVLM(Vision-G1)をデータカリキュラム付きマルチラウンドRLを用いて訓練し、その視覚的推論能力を反復的に改善する。
論文 参考訳(メタデータ) (2025-08-18T07:24:33Z) - From Drawings to Decisions: A Hybrid Vision-Language Framework for Parsing 2D Engineering Drawings into Structured Manufacturing Knowledge [0.352650106994433]
2Dエンジニアリング図面からの重要な情報は、デジタル製造の進歩に不可欠である。
手動の抽出は遅く、労働集約的であるが、一般的なOCRモデルは複雑なレイアウト、エンジニアリングシンボル、回転テキストのために失敗することが多い。
回転認識オブジェクト検出モデル(YOLOv11-obb)とトランスフォーマーに基づく視覚言語モデル(VLM)を統合するハイブリッドビジョン言語フレームワークを提案する。
論文 参考訳(メタデータ) (2025-06-20T17:10:01Z) - Granite Vision: a lightweight, open-source multimodal model for enterprise Intelligence [88.74800617923083]
視覚機能を備えた軽量な大規模言語モデルであるGranite Visionを紹介した。
我々のモデルは、包括的な命令追従データセットに基づいて訓練されている。
Granite Visionは、ビジュアル文書理解に関連する標準ベンチマークで強力な結果を得る。
論文 参考訳(メタデータ) (2025-02-14T05:36:32Z) - Learning to Rank Pre-trained Vision-Language Models for Downstream Tasks [41.488394198111976]
CLIPのような視覚言語モデル(VLM)は、分類ベンチマークで星のゼロショット能力を示している。
ラベル付けされていない下流タスクで最高のパフォーマンスでVLMを選択するのは簡単ではありません。
本稿では、教師なしの下流データセットのみを利用できる、テクスチャファイン教師付き視覚言語モデル選択の問題を紹介する。
論文 参考訳(メタデータ) (2024-12-30T03:26:53Z) - The All-Seeing Project V2: Towards General Relation Comprehension of the Open World [58.40101895719467]
本稿では,画像のオブジェクト関係を理解するために設計された新しいモデルとデータセットであるAll-Seeing Project V2を紹介する。
本稿では,テキスト生成,オブジェクトローカライゼーション,関係理解の定式化を関係会話タスクに統合するAll-Seeing Model V2を提案する。
我々のモデルは、画像内の全ての物体を知覚・認識するだけでなく、それらの間の複雑な関係グラフの把握にも優れている。
論文 参考訳(メタデータ) (2024-02-29T18:59:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。