論文の概要: MCERF: Advancing Multimodal LLM Evaluation of Engineering Documentation with Enhanced Retrieval
- arxiv url: http://arxiv.org/abs/2604.09552v1
- Date: Sat, 31 Jan 2026 03:09:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.486071
- Title: MCERF: Advancing Multimodal LLM Evaluation of Engineering Documentation with Enhanced Retrieval
- Title(参考訳): MCERF: 検索機能強化によるマルチモーダルLCM評価の改善
- Authors: Kiarash Naghavi Khanghah, Hoang Anh Nguyen, Anna C. Doris, Amir Mohammad Vahedi, Daniele Grandi, Faez Ahmed, Hongyi Xu,
- Abstract要約: エンジニアリングルールブックと技術標準は、密集したテキスト、テーブル、イラストのようなマルチモーダル情報を含んでいる。
この研究は、大規模言語モデル推論とマルチモーダルレトリバーを結合するシステムである、マルチモーダルColPali Enhanced Retrieval and Reasoning Framework (RFMCE)を確立する。
これは、視覚言語検索、モジュール推論、適応的ルーティングが、エンジニアリングユースケースにおけるスケーラブルなドキュメント理解を可能にする方法を示している。
- 参考スコア(独自算出の注目度): 7.964714175107759
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Engineering rulebooks and technical standards contain multimodal information like dense text, tables, and illustrations that are challenging for retrieval augmented generation (RAG) systems. Building upon the DesignQA framework [1], which relied on full-text ingestion and text-based retrieval, this work establishes a Multimodal ColPali Enhanced Retrieval and Reasoning Framework (MCERF), a system that couples a multimodal retriever with large language model reasoning for accurate and efficient question answering from engineering documents. The system employs the ColPali, which retrieves both textual and visual information, and multiple retrieval and reasoning strategies: (i) Hybrid Lookup mode for explicit rule mentions, (ii) Vision to Text fusion for figure and table guided queries, (iii) High Reasoning LLM mode for complex multi modal questions, and (iv) SelfConsistency decision to stabilize responses. The modular framework design provides a reusable template for future multimodal systems regardless of underlying model architecture. Furthermore, this work establishes and compares two routing approaches: a single case routing approach and a multi-agent system, both of which dynamically allocate queries to optimal pipelines. Evaluation on the DesignQA benchmark illustrates that this system improves average accuracy across all tasks with a relative gain of +41.1% from baseline RAG best results, which is a significant improvement in multimodal and reasoning-intensive tasks without complete rulebook ingestion. This shows how vision language retrieval, modular reasoning, and adaptive routing enable scalable document comprehension in engineering use cases.
- Abstract(参考訳): エンジニアリングルールブックと技術標準には、高密度テキスト、テーブル、イラストレーションなどのマルチモーダル情報が含まれており、RAG(Recovery augmented generation)システムでは困難である。
この研究は、フルテキストの取り込みとテキストベースの検索に依存したDesignQAフレームワーク[1]に基づいて、エンジニアリング文書から正確で効率的な質問応答を推論する大規模な言語モデルとマルチモーダル検索を結合するMCERF(Multimodal ColPali Enhanced Retrieval and Reasoning Framework)を確立する。
システムは、テキスト情報と視覚情報の両方を検索するColPaliと、複数の検索と推論戦略を採用している。
(i)明示的な規則記述のためのハイブリッドルックアップモード
(ii)図形とテーブル案内クエリのためのテキスト融合へのビジョン
三 複合マルチモーダル質問に対する高共振LDMモード及び
四 応答を安定させる自己整合性の決定。
モジュラーフレームワークの設計は、基盤となるモデルアーキテクチャに関係なく、将来のマルチモーダルシステムのための再利用可能なテンプレートを提供する。
さらに、単一のケースルーティングアプローチと、最適なパイプラインに動的にクエリを割り当てるマルチエージェントシステムという、2つのルーティングアプローチを確立し比較する。
DesignQAベンチマークの評価によれば、このシステムはベースラインRAGの最良の結果から相対的に41.1%向上し、全タスクの平均精度が向上している。
これは、視覚言語検索、モジュラー推論、適応的なルーティングによって、エンジニアリングユースケースにおけるスケーラブルなドキュメント理解を実現する方法を示している。
関連論文リスト
- Scaling Beyond Context: A Survey of Multimodal Retrieval-Augmented Generation for Document Understanding [61.36285696607487]
文書理解は、財務分析から科学的発見への応用に不可欠である。
現在のアプローチでは、OCRベースのパイプラインがLarge Language Models(LLM)やネイティブのMultimodal LLMs(MLLM)に制限されている。
Retrieval-Augmented Generation (RAG)は、外部データの基底モデルを支援するが、文書のマルチモーダルな性質は、テキスト、テーブル、チャート、レイアウトを組み合わせることで、より高度なパラダイムを必要とする。
論文 参考訳(メタデータ) (2025-10-17T02:33:16Z) - Recurrence Meets Transformers for Universal Multimodal Retrieval [59.92546492752452]
ReT-2は画像とテキストの両方からなるマルチモーダルクエリをサポートする統合検索モデルである。
検索構成の異なるM2KRとM-BEIRのベンチマークでReT-2を評価する。
検索強化された生成パイプラインに統合されると、ReT-2はEncyclopedic-VQAとInfoSeekデータセットのダウンストリームのパフォーマンスも向上する。
論文 参考訳(メタデータ) (2025-09-10T18:00:29Z) - CMRAG: Co-modality-based visual document retrieval and question answering [21.016544020685668]
共同モダリティベースのRAG(RAG)フレームワークは、テキストや画像を利用してより正確な検索と生成を行うことができる。
我々のフレームワークは、複数のビジュアル文書質問応答(VDQA)ベンチマークにおいて、単一モダリティベースのRAGを一貫して上回ります。
論文 参考訳(メタデータ) (2025-09-02T09:17:57Z) - MHier-RAG: Multi-Modal RAG for Visual-Rich Document Question-Answering via Hierarchical and Multi-Granularity Reasoning [5.55667293255701]
マルチモーダルな長文文書問合せタスクは、複数のページに分散したマルチモーダルなエビデンスを特定し、統合することを目的としている。
既存の手法はLVLM(Large Vision-Language Model)とRAG(Retrieval-Augmented Generation)に分類できる。
MHier-RAGと呼ばれる新しいマルチモーダルRAGモデルが提案され、テキスト情報と視覚情報の両方を長距離ページにわたって活用した。
論文 参考訳(メタデータ) (2025-08-01T12:22:53Z) - A Multi-Granularity Retrieval Framework for Visually-Rich Documents [4.804551482123172]
本稿では,MMDocIRとM2KRの2つのベンチマークタスクに適した,統一されたマルチグラニュラリティマルチモーダル検索フレームワークを提案する。
提案手法は,階層型符号化戦略,モダリティ対応検索機構,視覚言語モデル(VLM)に基づく候補フィルタリングを統合する。
本フレームワークは,タスク固有の微調整を必要とせずに,堅牢な性能を示す。
論文 参考訳(メタデータ) (2025-05-01T02:40:30Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。