Fugu-MT 論文翻訳(概要): PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling

論文の概要: PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling

arxiv url: http://arxiv.org/abs/2410.05970v1
Date: Tue, 8 Oct 2024 12:17:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-01 11:50:19.186433
Title: PDF-WuKong: A Large Multimodal Model for Efficient Long PDF Reading with End-to-End Sparse Sampling
Title（参考訳）: PDF-WuKong: エンド・ツー・エンドスパースサンプリングによる高効率PDF読解のための大規模マルチモーダルモデル
Authors: Xudong Xie, Liang Yin, Hao Yan, Yang Liu, Jing Ding, Minghui Liao, Yuliang Liu, Wei Chen, Xiang Bai,
Abstract要約: 文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。長いPDF文書に対する多モーダル質問回答(QA)を強化するために設計された多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。
参考スコア（独自算出の注目度）: 63.93112754821312
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Document understanding is a challenging task to process and comprehend large amounts of textual and visual information. Recent advances in Large Language Models (LLMs) have significantly improved the performance of this task. However, existing methods typically focus on either plain text or a limited number of document images, struggling to handle long PDF documents with interleaved text and images, especially in academic papers. In this paper, we introduce PDF-WuKong, a multimodal large language model (MLLM) which is designed to enhance multimodal question-answering (QA) for long PDF documents. PDF-WuKong incorporates a sparse sampler that operates on both text and image representations, significantly improving the efficiency and capability of the MLLM. The sparse sampler is integrated with the MLLM's image encoder and selects the paragraphs or diagrams most pertinent to user queries for processing by the language model. To effectively train and evaluate our model, we construct PaperPDF, a dataset consisting of a broad collection of academic papers sourced from arXiv, multiple strategies are proposed to generate automatically 1M QA pairs along with their corresponding evidence sources. Experimental results demonstrate the superiority and high efficiency of our approach over other models on the task of long multimodal PDF understanding, surpassing proprietary products by an average of 8.6% on F1. Our code and dataset will be released at https://github.com/yh-hust/PDF-Wukong.
Abstract（参考訳）: 文書理解は、大量のテキストや視覚情報を処理し、理解する上で難しい課題である。大規模言語モデル(LLM)の最近の進歩は、このタスクの性能を大幅に改善した。しかし、既存の手法は、通常、平易なテキストまたは限られた数の文書画像に焦点を当て、特に学術論文において、インターリーブされたテキストと画像で長いPDF文書を扱うのに苦労している。本稿では,長いPDF文書に対する多モーダル質問回答(QA)の強化を目的とした多モーダル大言語モデル(MLLM)であるPDF-WuKongを紹介する。 PDF-WuKongはテキストと画像表現の両方で動作するスパースサンプルを組み込んでおり、MLLMの効率と能力を大幅に改善している。スパースサンプリングはMLLMの画像エンコーダと統合され、言語モデルにより処理されるユーザクエリに関連する段落やダイアグラムを選択する。本モデルを効果的にトレーニングし,評価するために,arXivから得られた学術論文の広範なコレクションからなるデータセットであるPaperPDFを構築し,対応するエビデンスソースとともに,自動1M QAペアを生成するための複数の戦略を提案する。実験の結果,F1 上でのプロプライエタリな製品を平均8.6% 上回る長いマルチモーダル PDF 理解作業において,他のモデルに対するアプローチの優位性と高い効率性を示した。私たちのコードとデータセットはhttps://github.com/yh-hust/PDF-Wukong.comで公開されます。

関連論文リスト

Training-Free Acceleration for Document Parsing Vision-Language Model with Hierarchical Speculative Decoding [102.88996030431662]
本稿では,文書解析タスクの学習自由かつ高効率な高速化手法を提案する。投機的復号化にインスパイアされた私たちは、将来のトークンのバッチを予測するために、ドラフトモデルとして軽量な文書解析パイプラインを使用します。汎用OmniDocBenchに対するアプローチの有効性を示す。
論文参考訳（メタデータ） (2026-02-13T14:22:10Z)
Docopilot: Improving Multimodal Models for Document-Level Understanding [87.60020625241178]
マルチモーダル文書の詳細な理解を支援するために,高品質な文書レベルデータセットDoc-750Kを提案する。このデータセットには、さまざまなドキュメント構造、広範なクロスページ依存関係、および元のドキュメントから派生した実際の質問と回答のペアが含まれている。データセットに基づいて、RAGに頼ることなく、文書レベルの依存関係を正確に処理できるネイティブなマルチモーダルモデルであるDocopilotを開発する。
論文参考訳（メタデータ） (2025-07-19T16:03:34Z)
Towards Visual Text Grounding of Multimodal Large Language Model [88.0588924255417]
本稿では,テキストリッチな画像グラウンドのベンチマークを行うための命令データセットを新たに設計した新しいタスクであるTRIGを紹介する。具体的には,OCR-LLM-ヒューマンインタラクションパイプラインを提案し,800の注釈付き質問応答ペアをベンチマークとして作成する。提案したベンチマークによる各種MLLMの包括的評価は,テキストリッチな画像上でのグラウンド化能力の大幅な制限を明らかにする。
論文参考訳（メタデータ） (2025-04-07T12:01:59Z)
Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文参考訳（メタデータ） (2025-02-18T12:00:47Z)
M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework [75.95430061891828]
851サンプルのベンチマークであるM-LongDocと、大規模マルチモーダルモデルの性能を評価するための自動フレームワークを紹介する。効率的なマルチモーダル文書読解のための検索対応チューニング手法を提案する。
論文参考訳（メタデータ） (2024-11-09T13:30:38Z)
Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding [41.43688559565315]
我々は、事前訓練されたマルチモーダル大言語モデル(MLLM)に基づく新しいOCRフリー文書理解フレームワークを提案する。本手法では,文書画像内のフォントサイズを多種多様な視覚的特徴量で処理する。そこで本研究では,入力テキストの相対的な位置を学習することで,モデルのテキスト読解能力を向上させる新しい命令チューニングタスクを提案する。
論文参考訳（メタデータ） (2024-11-08T00:58:12Z)
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文参考訳（メタデータ） (2024-09-05T11:09:00Z)
DocLayLLM: An Efficient Multi-modal Extension of Large Language Models for Text-rich Document Understanding [40.38251904765156]
テキストリッチ文書理解(TDU)では,テキストの内容や複雑なレイアウトを含む文書を包括的に分析する必要がある。本稿では,TDUに特化して設計されたマルチモーダル言語モデル(MLLM)の効率的なマルチモーダル拡張であるDocLayLLMを紹介する。
論文参考訳（メタデータ） (2024-08-27T13:13:38Z)
From Text to Pixel: Advancing Long-Context Understanding in MLLMs [70.78454154014989]
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。 SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。 6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
論文参考訳（メタデータ） (2024-05-23T06:17:23Z)
TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。 4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文参考訳（メタデータ） (2024-04-14T09:48:37Z)
LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文参考訳（メタデータ） (2024-03-21T09:25:24Z)
Modular Multimodal Machine Learning for Extraction of Theorems and Proofs in Long Scientific Documents (Extended Version) [0.0]
学術的なPDF論文から数学的ステートメントの抽出とその証明をマルチモーダルな分類問題として扱う。本稿では,定理のような環境や証明を抽出するモジュール型連続型マルチモーダル機械学習手法を提案する。
論文参考訳（メタデータ） (2023-07-18T07:59:37Z)
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文参考訳（メタデータ） (2023-07-04T11:28:07Z)
mPLUG: Effective and Efficient Vision-Language Learning by Cross-modal Skip-connections [104.14624185375897]
mPLUGは、クロスモーダルな理解と生成のための新しいビジョン言語基盤モデルである。画像キャプション、画像テキスト検索、視覚的グラウンドリング、視覚的質問応答など、幅広い視覚言語下流タスクの最先端結果を達成する。
論文参考訳（メタデータ） (2022-05-24T11:52:06Z)
Robust PDF Document Conversion Using Recurrent Neural Networks [0.0]
本稿では,リカレントニューラルネットワークを用いたpdfの文書構造復元手法を提案する。ニューラルネットワークへの入力としてPDF印刷コマンドのシーケンスをどのように使用できるかを示す。 17の異なる構造ラベルで97%の重み付き平均F1スコアを得るモデルを実装します。
論文参考訳（メタデータ） (2021-02-18T14:39:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。