論文の概要: BLUEPRINT Rebuilding a Legacy: Multimodal Retrieval for Complex Engineering Drawings and Documents
- arxiv url: http://arxiv.org/abs/2602.13345v1
- Date: Thu, 12 Feb 2026 19:48:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:27.930686
- Title: BLUEPRINT Rebuilding a Legacy: Multimodal Retrieval for Complex Engineering Drawings and Documents
- Title(参考訳): BLUEPRINTがレガシーを再構築: 複雑なエンジニアリング図面とドキュメントのためのマルチモーダル検索
- Authors: Ethan Seefried, Ran Eldegaway, Sanjay Das, Nathaniel Blanchard, Tirthankar Ghosal,
- Abstract要約: 大規模エンジニアリングレポジトリを対象としたレイアウト対応マルチモーダル検索システムBlueprintを提案する。
Blueprintは標準描画領域を検出し、領域制限付きVLMベースのOCRを適用し、識別子を正規化し、軽量な領域レベルの再ランカで語彙的および密度の高い検索を融合する。
350名の専門家によるクエリを用いた5k-fileベンチマークでBlueprintの評価を行った。
- 参考スコア(独自算出の注目度): 3.972942030662871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Decades of engineering drawings and technical records remain locked in legacy archives with inconsistent or missing metadata, making retrieval difficult and often manual. We present Blueprint, a layout-aware multimodal retrieval system designed for large-scale engineering repositories. Blueprint detects canonical drawing regions, applies region-restricted VLM-based OCR, normalizes identifiers (e.g., DWG, part, facility), and fuses lexical and dense retrieval with a lightweight region-level reranker. Deployed on ~770k unlabeled files, it automatically produces structured metadata suitable for cross-facility search. We evaluate Blueprint on a 5k-file benchmark with 350 expert-curated queries using pooled, graded (0/1/2) relevance judgments. Blueprint delivers a 10.1% absolute gain in Success@3 and an 18.9% relative improvement in nDCG@3 over the strongest vision-language baseline}, consistently outperforming across vision, text, and multimodal intents. Oracle ablations reveal substantial headroom under perfect region detection and OCR. We release all queries, runs, annotations, and code to facilitate reproducible evaluation on legacy engineering archives.
- Abstract(参考訳): エンジニアリング図面や技術記録の数十年は、一貫性のない、あるいは欠落したメタデータを持つレガシなアーカイブに閉じ込められているため、検索が難しく、しばしば手動で行うことが困難である。
大規模エンジニアリングレポジトリ向けに設計されたレイアウト対応マルチモーダル検索システムであるBlueprintを提案する。
Blueprintは、標準描画領域を検出し、領域制限付きVLMベースのOCRを適用し、識別子(例えば、DWG、部分、施設)を正規化し、軽量な領域レベルの再ランカで語彙的および密度の高い検索を融合する。
770kのラベルのないファイルにデプロイされ、クロスファシリティ検索に適した構造化メタデータを自動的に生成する。
350名の専門家によるクエリを用いた5k-fileベンチマークでBlueprintの評価を行った。
BlueprintはSuccess@3が10.1%、nDCG@3が18.9%向上し、視覚、テキスト、マルチモーダルの意図を一貫して上回っている。
Oracleの廃止により、完全なリージョン検出とOCRの下で、相当なヘッドルームが明らかになった。
レガシーエンジニアリングアーカイブの再現可能な評価を容易にするために、すべてのクエリ、実行、アノテーション、コードをリリースします。
関連論文リスト
- Cross-modal Retrieval Models for Stripped Binary Analysis [62.89251403093734]
BinSeekは、取り除かれたバイナリコード分析のための最初の2段階のクロスモーダル検索フレームワークである。
BinSeekEmbeddingは、バイナリコードのセマンティックな関連性を学ぶために、大規模なデータセットでトレーニングされている。
BinSeek-Rerankerは、コンテキスト拡張による記述に対する候補コードの関連性を慎重に判断することを学ぶ。
論文 参考訳(メタデータ) (2025-12-11T07:58:10Z) - Beyond Patch Aggregation: 3-Pass Pyramid Indexing for Vision-Enhanced Document Retrieval [0.0]
ドキュメント中心のRAGパイプラインは通常、OCRから始まり、次にチャンキング、テーブル解析、レイアウト再構築のための脆さが続く。
我々は,OCRフリーかつモデル非依存なマルチモーダル検索システムであるVisionRAGを紹介する。
VisionRAGは、ドキュメントを直接イメージとしてインデックスし、レイアウト、テーブル、空間的なキューを保存し、特定の抽出にコミットすることなくセマンティックベクターを構築する。
論文 参考訳(メタデータ) (2025-11-26T07:18:06Z) - Towards Realistic Project-Level Code Generation via Multi-Agent Collaboration and Semantic Architecture Modeling [7.753074942497876]
CodeProjectEvalは、12.7ファイルと2,388.6行のタスクを持つ18の現実世界リポジトリから構築されたプロジェクトレベルのコード生成データセットである。
プロジェクトをアーキテクチャ設計、スケルトン生成、コードフィリングステージに分解するマルチエージェントフレームワークであるProjectGenを提案する。
実験によると、ProjectGenは、52/124のテストケースを小さなプロジェクトレベルのコード生成データセットDevBenchに渡すことで、最先端のパフォーマンスを実現している。
論文 参考訳(メタデータ) (2025-11-05T12:12:35Z) - Hybrid OCR-LLM Framework for Enterprise-Scale Document Information Extraction Under Copy-heavy Task [11.672798725644121]
この作業は、OCRエンジンとLLM(Large Language Models)を戦略的に組み合わせて、反復的な文書抽出タスクに固有の正確性と効率のトレードオフを最適化する。
3つの抽出パラダイム(ダイレクト、リプレース、テーブルベース)にまたがる25のコンフィギュレーションを、4つのフォーマットにまたがるIDドキュメント上で実装し、評価する。
論文 参考訳(メタデータ) (2025-10-11T09:40:34Z) - ArchGPT: Understanding the World's Architectures with Large Multimodal Models [6.504675786709239]
本稿では,マルチモーダルな視覚的質問応答(VQA)モデルであるArchGPTを提案する。
このパイプラインはArch-300Kというドメイン特化データセットを約315,000枚取得する。
論文 参考訳(メタデータ) (2025-09-25T07:49:43Z) - SitEmb-v1.5: Improved Context-Aware Dense Retrieval for Semantic Association and Long Story Comprehension [77.93156509994994]
本研究では,検索性能を向上させるために,より広いコンテキストウインドウに条件付きで短いチャンクを表現する方法を示す。
既存の埋め込みモデルは、そのような場所のコンテキストを効果的にエンコードするのに十分な装備がない。
我々の手法は、最先端の埋め込みモデルよりも大幅に優れている。
論文 参考訳(メタデータ) (2025-08-03T23:59:31Z) - Benchmarking Deep Search over Heterogeneous Enterprise Data [73.55304268238474]
検索強化生成(RAG)の形式を評価するための新しいベンチマークを提案する。
RAGは、多種多様な、しかし関連するソースに対して、ソースを意識したマルチホップ推論を必要とする。
製品計画、開発、サポートステージをまたいだビジネスをシミュレートする合成データパイプラインを使用して構築します。
論文 参考訳(メタデータ) (2025-06-29T08:34:59Z) - DocMMIR: A Framework for Document Multi-modal Information Retrieval [35.41540195822167]
本稿では,新しいマルチモーダル文書検索フレームワークDocMMIRを紹介する。
450Kサンプルからなる大規模クロスドメインマルチモーダルベンチマークを構築した。
その結果、ゼロショットベースラインに比べてMRR@10は+31%改善した。
論文 参考訳(メタデータ) (2025-05-25T20:58:58Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [52.61625841028781]
COIR(Code Information Retrieval Benchmark)は、コード検索機能を評価するために設計された、堅牢で包括的なベンチマークである。
COIRは、厳密にキュレートされた10のコードデータセットで構成され、7つの異なるドメインにまたがる8つの特有の検索タスクにまたがる。
我々は,COIRを用いた9つの広く使用されている検索モデルを評価し,最先端システムにおいても,コード検索タスクの実行に重大な困難があることを明らかにする。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - LOCR: Location-Guided Transformer for Optical Character Recognition [55.195165959662795]
自動回帰中にトランスフォーマーアーキテクチャに位置案内を組み込むモデルであるLOCRを提案する。
125Kの学術文書ページから777万以上のテキスト配置ペアからなるデータセット上でモデルをトレーニングする。
これは、編集距離、BLEU、METEOR、F測定によって測定されたarXivから構築されたテストセットの既存のメソッドよりも優れています。
論文 参考訳(メタデータ) (2024-03-04T15:34:12Z) - Autoregressive Search Engines: Generating Substrings as Document
Identifiers [53.0729058170278]
自動回帰言語モデルは、回答を生成するデファクト標準として現れています。
これまでの研究は、探索空間を階層構造に分割する方法を探究してきた。
本研究では,検索空間の任意の構造を強制しない代替として,経路内のすべてのngramを識別子として使用することを提案する。
論文 参考訳(メタデータ) (2022-04-22T10:45:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。