論文の概要: M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework
- arxiv url: http://arxiv.org/abs/2411.06176v1
- Date: Sat, 09 Nov 2024 13:30:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:10:20.867812
- Title: M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework
- Title(参考訳): M-Longdoc:マルチモーダルな超ロングドキュメント理解のためのベンチマークと検索対応チューニングフレームワーク
- Authors: Yew Ken Chia, Liying Cheng, Hou Pong Chan, Chaoqun Liu, Maojia Song, Sharifah Mahani Aljunied, Soujanya Poria, Lidong Bing,
- Abstract要約: 851サンプルのベンチマークであるM-LongDocと、大規模マルチモーダルモデルの性能を評価するための自動フレームワークを紹介する。
効率的なマルチモーダル文書読解のための検索対応チューニング手法を提案する。
- 参考スコア(独自算出の注目度): 75.95430061891828
- License:
- Abstract: The ability to understand and answer questions over documents can be useful in many business and practical applications. However, documents often contain lengthy and diverse multimodal contents such as texts, figures, and tables, which are very time-consuming for humans to read thoroughly. Hence, there is an urgent need to develop effective and automated methods to aid humans in this task. In this work, we introduce M-LongDoc, a benchmark of 851 samples, and an automated framework to evaluate the performance of large multimodal models. We further propose a retrieval-aware tuning approach for efficient and effective multimodal document reading. Compared to existing works, our benchmark consists of more recent and lengthy documents with hundreds of pages, while also requiring open-ended solutions and not just extractive answers. To our knowledge, our training framework is the first to directly address the retrieval setting for multimodal long documents. To enable tuning open-source models, we construct a training corpus in a fully automatic manner for the question-answering task over such documents. Experiments show that our tuning approach achieves a relative improvement of 4.6% for the correctness of model responses, compared to the baseline open-source models. Our data, code, and models are available at https://multimodal-documents.github.io.
- Abstract(参考訳): ドキュメント上で質問を理解し、答える能力は、多くのビジネスおよび実践的なアプリケーションで有用である。
しかし、文書にはテキスト、数字、テーブルなど、長く多様なマルチモーダルコンテンツが含まれており、人間が徹底的に読むのに非常に時間がかかる。
したがって、この作業において人間を効果的かつ自動で支援する手法を開発する必要がある。
本研究では,M-LongDoc,851サンプルのベンチマーク,大規模マルチモーダルモデルの性能評価のための自動フレームワークを紹介する。
さらに,効率的なマルチモーダル文書読解のための検索対応チューニング手法を提案する。
既存の研究と比較すると、我々のベンチマークは数百ページからなるより最新で長いドキュメントで構成されていますが、オープンな解決策も必要です。
我々の知る限り、我々のトレーニングフレームワークは、マルチモーダルな長い文書の検索設定に直接対処する最初のものである。
オープンソースモデルのチューニングを可能にするため,そのような文書に対する質問応答タスクに対して,完全自動で学習コーパスを構築する。
実験により,我々のチューニング手法は,ベースラインのオープンソースモデルと比較して,モデル応答の正しさに対して相対的に4.6%向上していることがわかった。
私たちのデータ、コード、モデルはhttps://multimodal-documents.github.io.comで公開されています。
関連論文リスト
- M3DocRAG: Multi-modal Retrieval is What You Need for Multi-page Multi-document Understanding [63.33447665725129]
M3DocRAGは、様々な文書コンテキストに柔軟に対応する新しいマルチモーダルRAGフレームワークである。
M3DocRAGは視覚情報を保存しながら、単一の文書や多数の文書を効率的に処理できる。
M3DocVQAはオープンドメインDocVQAを3,000以上のPDFドキュメントと4万以上のページで評価するための新しいベンチマークである。
論文 参考訳(メタデータ) (2024-11-07T18:29:38Z) - LoRA-Contextualizing Adaptation of Large Multimodal Models for Long Document Understanding [103.69014172427026]
大規模マルチモーダルモデル(LMM)は、最近、テキストに富む画像理解において大きな進歩を見せている。
長文書理解を支援するLMMの能力を拡張したLoRA-Contextualizing Adaptation of Large Multimodal Model (LoCAL) という新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-02T02:09:01Z) - PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling [63.93112754821312]
文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。
大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。
長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
論文 参考訳(メタデータ) (2024-10-08T12:17:42Z) - MetaSumPerceiver: Multimodal Multi-Document Evidence Summarization for Fact-Checking [0.283600654802951]
マルチモーダルデータセットからファクトチェックに有用なクレーム固有の要約を生成するために設計された要約モデルを提案する。
任意の長さの複数のモードから入力を処理できる動的知覚モデルを提案する。
提案手法は,MOCHEGデータセットのクレーム検証タスクにおいて,SOTAアプローチを4.6%向上させる。
論文 参考訳(メタデータ) (2024-07-18T01:33:20Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - MuLD: The Multitask Long Document Benchmark [4.835289158553091]
我々は1万以上のトークンからなる文書のみからなる新しい長期文書ベンチマークを示す。
文脈長の増大したモデルでは,課題の解決がより容易であることを示す。
論文 参考訳(メタデータ) (2022-02-15T12:42:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。