論文の概要: MMORE: Massive Multimodal Open RAG & Extraction
- arxiv url: http://arxiv.org/abs/2509.11937v1
- Date: Mon, 15 Sep 2025 13:56:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-16 17:26:23.318727
- Title: MMORE: Massive Multimodal Open RAG & Extraction
- Title(参考訳): MMORE: 大規模マルチモーダルオープンRAGと抽出
- Authors: Alexandre Sallinen, Stefan Krsteski, Paul Teiletche, Marc-Antoine Allard, Baptiste Lecoeur, Michael Zhang, Fabrice Nemo, David Kalajdzic, Matthias Meyer, Mary-Anne Hartley,
- Abstract要約: MMOREは、大規模な異種文書フォーマットから知識を取り込み、変換し、取り出すパイプラインである。
MMOREはテキスト、テーブル、画像、メール、オーディオ、ビデオを含む15以上のファイルタイプをサポートし、それらを統一されたフォーマットに処理する。
処理ベンチマークでは、MMOREは1ノードのベースラインよりも3.8倍のスピードアップを示し、スキャンされたPDFのドッキングよりも40%高い精度を示している。
- 参考スコア(独自算出の注目度): 35.45122798365231
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce MMORE, an open-source pipeline for Massive Multimodal Open RetrievalAugmented Generation and Extraction, designed to ingest, transform, and retrieve knowledge from heterogeneous document formats at scale. MMORE supports more than fifteen file types, including text, tables, images, emails, audio, and video, and processes them into a unified format to enable downstream applications for LLMs. The architecture offers modular, distributed processing, enabling scalable parallelization across CPUs and GPUs. On processing benchmarks, MMORE demonstrates a 3.8-fold speedup over single-node baselines and 40% higher accuracy than Docling on scanned PDFs. The pipeline integrates hybrid dense-sparse retrieval and supports both interactive APIs and batch RAG endpoints. Evaluated on PubMedQA, MMORE-augmented medical LLMs improve biomedical QA accuracy with increasing retrieval depth. MMORE provides a robust, extensible foundation for deploying task-agnostic RAG systems on diverse, real-world multimodal data. The codebase is available at https://github.com/swiss-ai/mmore.
- Abstract(参考訳): 我々は、大規模なマルチモーダルなオープンレトリヴァルAugmented Generation and extractのためのオープンソースのパイプラインであるMMOREを紹介した。
MMOREは、テキスト、テーブル、画像、Eメール、オーディオ、ビデオを含む15以上のファイルタイプをサポートし、それらを統一フォーマットに処理し、LLMの下流アプリケーションを可能にする。
アーキテクチャはモジュール化された分散処理を提供し、CPUとGPU間のスケーラブルな並列化を可能にする。
処理ベンチマークでは、MMOREは1ノードのベースラインよりも3.8倍のスピードアップを示し、スキャンされたPDFのドッキングよりも40%高い精度を示している。
パイプラインはハイブリッドな高密度スパース検索を統合し、インタラクティブAPIとバッチRAGエンドポイントの両方をサポートする。
PubMedQAの評価により,MMOREを付加した医療用LLMは,検索深度を増大させ,生体医学的QA精度を向上させる。
MMOREは、多様な実世界のマルチモーダルデータにタスクに依存しないRAGシステムをデプロイするための、堅牢で拡張可能な基盤を提供する。
コードベースはhttps://github.com/swiss-ai/mmoreで公開されている。
関連論文リスト
- ViLLA-MMBench: A Unified Benchmark Suite for LLM-Augmented Multimodal Movie Recommendation [14.62192876151853]
ViLLA-MMBenchはマルチモーダル映画レコメンデーションのベンチマークである。
オーディオ(ブロックレベル、i-ベクター)、ビジュアル(CNN、AVF)、テキストの3つのモードからの密なアイテムの埋め込みを調整する。
不足メタデータやスパースメタデータは、最先端のLCMを使用して自動的に強化される。
論文 参考訳(メタデータ) (2025-08-06T08:39:07Z) - Med-GRIM: Enhanced Zero-Shot Medical VQA using prompt-embedded Multimodal Graph RAG [0.0]
A representation model, BIND: BLIVA Integrated with Dense
Denseは、密集したクエリトーケンベースのエンコーディングを通じて、ジョイント埋め込み空間を精製することで、以前のマルチモーダルな作業を拡張する。
この改良されたエンコーダは医療用VQAタスク用に設計されたモデルであるMed-GRIMを利用している。
VQAシステム内の各エージェントに異なる役割を割り当てることで、Med-GRIMは計算コストのごく一部で大きな言語モデルの性能を達成する。
論文 参考訳(メタデータ) (2025-07-20T06:44:12Z) - Benchmarking Retrieval-Augmented Multimomal Generation for Document Question Answering [42.468210353582755]
Document Visual Question Answering (DocVQA)は、長いマルチモーダル文書の処理において2つの課題に直面している。
現在の文書検索拡張生成法(DocRAG)はテキスト中心のアプローチによって制限されている。
MMDocRAGは,多ページのクロスモーダルエビデンスチェーンを持つ4,055のエキスパートアノテーション付きQAペアを特徴とする総合ベンチマークである。
論文 参考訳(メタデータ) (2025-05-22T09:52:57Z) - M-DocSum: Do LVLMs Genuinely Comprehend Interleaved Image-Text in Document Summarization? [49.53982792497275]
本稿では,LVLM(Large Vision-Language Models)が文書中のインターリーブ画像テキストを真に理解しているかどうかを検討する。
既存の文書理解ベンチマークは、しばしば質問応答形式を用いてLVLMを評価する。
マルチモーダル文書要約ベンチマーク(M-DocSum-Bench)について紹介する。
M-DocSum-Benchは500の高品質なarXiv論文と、人間の好みに合わせたインターリーブされたマルチモーダル要約で構成されている。
論文 参考訳(メタデータ) (2025-03-27T07:28:32Z) - Benchmarking Retrieval-Augmented Generation in Multi-Modal Contexts [56.7225771305861]
本稿では,マルチモーダル大規模言語モデルの有効性を評価するためのベンチマークであるMulti-Modal Retrieval-Augmented Generation (M$2$RAG)を紹介する。
このベンチマークは、イメージキャプション、マルチモーダル質問応答、マルチモーダル事実検証、イメージリランクの4つのタスクで構成されている。
MLLMのコンテキスト利用能力を高めるため,マルチモーダル検索型インストラクションチューニング(MM-RAIT)も導入する。
論文 参考訳(メタデータ) (2025-02-24T16:25:25Z) - VisDoM: Multi-Document QA with Visually Rich Elements Using Multimodal Retrieval-Augmented Generation [100.06122876025063]
本稿では,マルチドキュメント設定でQAシステムを評価するために設計された,初の総合ベンチマークであるVisDoMBenchを紹介する。
視覚とテキストのRAGを同時に利用する新しいマルチモーダル検索拡張生成(RAG)手法であるVisDoMRAGを提案する。
論文 参考訳(メタデータ) (2024-12-14T06:24:55Z) - Hybrid Transformer with Multi-level Fusion for Multimodal Knowledge
Graph Completion [112.27103169303184]
マルチモーダル知識グラフ(MKG)は、視覚テキストの事実知識を整理する。
MKGformerは、マルチモーダルリンク予測、マルチモーダルRE、マルチモーダルNERの4つのデータセット上でSOTA性能を得ることができる。
論文 参考訳(メタデータ) (2022-05-04T23:40:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。