Fugu-MT 論文翻訳(概要): DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding

論文の概要: DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding

arxiv url: http://arxiv.org/abs/2311.11810v3
Date: Thu, 30 Nov 2023 08:27:38 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-01 13:05:31.296943
Title: DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding
Title（参考訳）: DocPedia:Versatile文書理解のための周波数領域における大規模マルチモーダルモデルのパワーの解放
Authors: Hao Feng and Qi Liu and Hao Liu and Wengang Zhou and Houqiang Li and Can Huang
Abstract要約: 本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
参考スコア（独自算出の注目度）: 98.41782470335032
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This work presents DocPedia, a novel large multimodal model (LMM) for versatile OCR-free document understanding, capable of parsing images up to 2,560$\times$2,560 resolution. Unlike existing work either struggle with high-resolution documents or give up the large language model thus vision or language ability constrained, our DocPedia directly processes visual input in the frequency domain rather than the pixel space. The unique characteristic enables DocPedia to capture a greater amount of visual and textual information using a limited number of visual tokens. To consistently enhance both perception and comprehension abilities of our model, we develop a dual-stage training strategy and enrich instructions/annotations of all training tasks covering multiple document types. Extensive quantitative and qualitative experiments conducted on various publicly available benchmarks confirm the mutual benefits of jointly learning perception and comprehension tasks. The results provide further evidence of the effectiveness and superior performance of our DocPedia over other methods.
Abstract（参考訳）: DocPediaは、OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)で、2,560$\times$2,560の解像度で画像を解析できる。既存の作品が高解像度ドキュメントに苦しむか、ビジョンや言語能力に制約のある大きな言語モデルを諦めるかとは異なり、私たちのdocpediaはピクセル空間ではなく周波数領域で視覚入力を直接処理します。ユニークな特徴により、docpediaは限られた数のビジュアルトークンを使用して、より多くのビジュアル情報とテキスト情報をキャプチャできる。モデルの知覚能力と理解能力の両立を一貫して向上させるため,二段階の訓練戦略を開発し,複数の文書タイプをカバーするすべての訓練タスクの指示/注釈を充実させる。様々な公開可能なベンチマークで実施された広範囲な量的および質的な実験は、共同学習の知覚と理解タスクの相互利益を確認する。その結果,DocPediaが他の手法よりも有効であり,優れた性能を示した。

関連論文リスト

DocLens : A Tool-Augmented Multi-Agent Framework for Long Visual Document Understanding [59.4112754806335]
我々は、レンズのようなエビデンスに対して「効果的にズームインする」ツール強化マルチエージェントフレームワークであるDocLensを提案する。最初はドキュメント全体から、関連するページの特定のビジュアル要素にナビゲートし、次にサンプリング・アジュディテーション機構を使用して、信頼できる1つの回答を生成する。 MMLongBench-DocとFinRAG-Vで最先端のパフォーマンスを達成し、人間専門家さえ超えている。
論文参考訳（メタデータ） (2025-11-14T18:42:18Z)
DoPTA: Improving Document Layout Analysis using Patch-Text Alignment [3.3181276611945267]
本稿では,文書画像のテキスト情報を利用した視覚的タスクの性能向上を目的とした,新しい画像テキストアライメント手法を提案する。本手法で訓練した文書エンコーダモデルDoPTAは,OCRを必要とせず,幅広い文書イメージ理解タスクにおいて高い性能を示す。 DoPTAはまた、D4LAと2つの挑戦的なドキュメントビジュアル分析ベンチマークであるFUNSDで、新しい最先端のアート結果も設定している。
論文参考訳（メタデータ） (2024-12-17T13:26:31Z)
MMDocBench: Benchmarking Large Vision-Language Models for Fine-Grained Visual Document Understanding [66.23502779435053]
LVLM(Large Vision-Language Models)は多くの視覚言語タスクにおいて顕著な性能を発揮している。既存のベンチマークには、他のデータと混合された詳細な評価サンプルが限られているか、あるいは自然画像のオブジェクトレベルの評価に限られている。自然画像の補足に多粒度および多モード情報を用いた文書画像を提案する。
論文参考訳（メタデータ） (2024-10-25T16:00:55Z)
mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。 DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文参考訳（メタデータ） (2024-09-05T11:09:00Z)
HRVDA: High-Resolution Visual Document Assistant [32.51417315241559]
本稿では,MLLMと視覚文書理解のギャップを埋めるための高解像度ビジュアルドキュメントアシスタント(HRVDA)を提案する。 HRVDAはコンテンツフィルタリング機構と命令フィルタリングモジュールを使用して、コンテンツに依存しないビジュアルトークンと命令に依存しないビジュアルトークンをフィルタリングする。本モデルは,複数の文書理解データセットにまたがる最先端性能を実現する。
論文参考訳（メタデータ） (2024-04-10T11:10:50Z)
LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文参考訳（メタデータ） (2024-03-21T09:25:24Z)
UniDoc: A Universal Large Multimodal Model for Simultaneous Text Detection, Recognition, Spotting and Understanding [93.92313947913831]
テキスト検出と認識機能を備えた新しいマルチモーダルモデルUniDocを紹介する。我々の知る限りでは、これはテキストの検出、認識、スポッティング、理解を同時に行うことができる最初の大規模マルチモーダルモデルである。
論文参考訳（メタデータ） (2023-08-19T17:32:34Z)
DocumentCLIP: Linking Figures and Main Body Text in Reflowed Documents [18.080447065002392]
本稿では,文書内の画像と長文間の相互作用を理解するために,視覚言語事前学習モデルを強制するためのDocumentCLIPを提案する。我々のモデルは、言語的にも視覚的にもリッチなコンテンツを含む、ニュース記事、雑誌、製品記述などの実世界のマルチモーダル文書理解にとって有益である。
論文参考訳（メタデータ） (2023-06-09T23:51:11Z)
Towards Unifying Medical Vision-and-Language Pre-training via Soft Prompts [63.84720380390935]
textiti. には、重い融合モジュールを使用するかどうかに応じて、融合エンコーダタイプと二重エンコーダタイプという2つの典型的なタイプがある。 PTUnifier という2つのタイプを統一する手法を提案する。まず、最も代表的な画像/テキストを格納する機能バンクとして機能する視覚的およびテキスト的プロンプトを導入することで、入力形式を統一する。
論文参考訳（メタデータ） (2023-02-17T15:43:42Z)
Bi-VLDoc: Bidirectional Vision-Language Modeling for Visually-Rich Document Understanding [72.95838931445498]
マルチモーダル文書事前学習モデルは、様々な視覚的にリッチな文書理解(VrDU)タスクにおいて非常に効果的であることが証明されている。ドキュメント上の視覚と言語間の相互作用をモデル化し、活用する方法は、より優れた一般化能力とより高い精度から妨げられている。本稿では,VrDUにおける視覚言語共同表現学習の問題点について,主に監視信号の観点から検討する。
論文参考訳（メタデータ） (2022-06-27T09:58:34Z)
Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。 UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。 UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文参考訳（メタデータ） (2022-04-22T21:47:04Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。