論文の概要: Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding
- arxiv url: http://arxiv.org/abs/2411.05254v1
- Date: Fri, 08 Nov 2024 00:58:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-11 14:54:32.651727
- Title: Hierarchical Visual Feature Aggregation for OCR-Free Document Understanding
- Title(参考訳): OCRフリー文書理解のための階層的視覚的特徴集約
- Authors: Jaeyoo Park, Jin Young Choi, Jeonghyung Park, Bohyung Han,
- Abstract要約: 我々は、事前訓練されたマルチモーダル大言語モデル(MLLM)に基づく新しいOCRフリー文書理解フレームワークを提案する。
本手法では,文書画像内のフォントサイズを多種多様な視覚的特徴量で処理する。
そこで本研究では,入力テキストの相対的な位置を学習することで,モデルのテキスト読解能力を向上させる新しい命令チューニングタスクを提案する。
- 参考スコア(独自算出の注目度): 41.43688559565315
- License:
- Abstract: We present a novel OCR-free document understanding framework based on pretrained Multimodal Large Language Models (MLLMs). Our approach employs multi-scale visual features to effectively handle various font sizes within document images. To address the increasing costs of considering the multi-scale visual inputs for MLLMs, we propose the Hierarchical Visual Feature Aggregation (HVFA) module, designed to reduce the number of input tokens to LLMs. Leveraging a feature pyramid with cross-attentive pooling, our approach effectively manages the trade-off between information loss and efficiency without being affected by varying document image sizes. Furthermore, we introduce a novel instruction tuning task, which facilitates the model's text-reading capability by learning to predict the relative positions of input text, eventually minimizing the risk of truncated text caused by the limited capacity of LLMs. Comprehensive experiments validate the effectiveness of our approach, demonstrating superior performance in various document understanding tasks.
- Abstract(参考訳): 本稿では,事前学習型マルチモーダル大言語モデル(MLLM)に基づく新しいOCRフリー文書理解フレームワークを提案する。
本手法では,文書画像内のフォントサイズを効果的に扱うために,マルチスケールの視覚的特徴を用いる。
MLLMのマルチスケール視覚入力を考えるコストの増大に対処するため,LLMへの入力トークン数を削減するために,階層型視覚特徴集約(HVFA)モジュールを提案する。
本手法では,多彩な文書画像サイズの影響を受けずに,情報損失と効率のトレードオフを効果的に管理する。
さらに,入力テキストの相対的な位置の予測を学習することで,モデルのテキスト読取を容易にする新しい命令チューニングタスクを導入し,LLMの限られた能力によって引き起こされるトランケートテキストのリスクを最小限に抑える。
本手法の有効性を総合実験により検証し,各種文書理解タスクにおいて優れた性能を示す。
関連論文リスト
- Rethinking Visual Prompting for Multimodal Large Language Models with External Knowledge [76.45868419402265]
マルチモーダルな大言語モデル(MLLM)は、膨大な高品質の画像テキストデータセットをトレーニングすることで、大きな進歩を遂げている。
しかし、マスクのような細粒度や空間的に密集した情報をテキストで明示的に伝達することの難しさは、MLLMにとって困難である。
本稿では、特殊な視覚モデルから派生した細粒度の外部知識をMLLMに統合する新しい視覚的プロンプト手法を提案する。
論文 参考訳(メタデータ) (2024-07-05T17:43:30Z) - DocKylin: A Large Multimodal Model for Visual Document Understanding with Efficient Visual Slimming [33.40963475653868]
DocKylinは文書中心のMLLMで、ピクセルレベルとトークンレベルの両方でビジュアルコンテンツをスリム化する。
本稿では,ピクセルレベルのスリム化を行うためのAPSプリプロセッシングモジュールを提案する。
また,トークンレベルスライミングを行う新しい動的トークンスライミング(DTS)モジュールを提案する。
論文 参考訳(メタデータ) (2024-06-27T11:28:36Z) - From Text to Pixel: Advancing Long-Context Understanding in MLLMs [70.78454154014989]
本稿では,この問題に対処するために設計された多モーダル大規模言語モデルであるSEEKERを紹介する。
SEEKERは、画像を介してテキストシーケンスを視覚ピクセル空間に圧縮することで、長文のコンパクトエンコーディングを最適化することを目的としている。
6つの長文マルチモーダルタスクに関する実験により、SEEKERは、OCRベースの手法と比較して、同じ量のテキスト情報を伝達するために、少ない画像トークンを利用できることを示した。
論文 参考訳(メタデータ) (2024-05-23T06:17:23Z) - TextHawk: Exploring Efficient Fine-Grained Perception of Multimodal Large Language Models [9.232693392690702]
TextHawkは文書指向マルチモーダル言語モデル(MLLM)である。
4つの専用コンポーネントを設計することで、効率的な微粒化知覚を探索するように設計されている。
汎用MLLMベンチマークと文書指向MLLMベンチマークの両方で広範な実験を行い、TextHawkが最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2024-04-14T09:48:37Z) - HRVDA: High-Resolution Visual Document Assistant [32.51417315241559]
本稿では,MLLMと視覚文書理解のギャップを埋めるための高解像度ビジュアルドキュメントアシスタント(HRVDA)を提案する。
HRVDAはコンテンツフィルタリング機構と命令フィルタリングモジュールを使用して、コンテンツに依存しないビジュアルトークンと命令に依存しないビジュアルトークンをフィルタリングする。
本モデルは,複数の文書理解データセットにまたがる最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-10T11:10:50Z) - Draw-and-Understand: Leveraging Visual Prompts to Enable MLLMs to Comprehend What You Want [58.091825321168514]
我々は、Draw-and-Understandプロジェクト、新しいモデル、マルチドメインデータセット、ビジュアルプロンプトのための挑戦的なベンチマークを紹介する。
具体的には、視覚エンコーダ、視覚プロンプトエンコーダ、LLMを接続する、エンド・ツー・エンドのマルチモーダル大規模言語モデル(MLLM)を提案する。
MLLMの視覚的プロンプト研究を進めるために,MDVP-DataとMDVP-Benchを紹介する。
論文 参考訳(メタデータ) (2024-03-29T16:26:20Z) - Enhancing Visual Document Understanding with Contrastive Learning in
Large Visual-Language Models [56.76307866160105]
文書オブジェクト協調学習(Document Object Contrastive Learning, DoCo)と呼ばれる対照的な学習フレームワークを提案する。
DoCoは補助的なマルチモーダルエンコーダを利用して文書オブジェクトの特徴を取得し、それをLVLM(Large Visual-Language Models)の視覚エンコーダによって生成された視覚的特徴に合わせる。
提案するDoCoは,様々なLVLMの事前学習において,推論過程における計算複雑性の増大を招くことなく,プラグイン・アンド・プレイの事前学習手法として機能することが実証された。
論文 参考訳(メタデータ) (2024-02-29T10:17:27Z) - Incorporating Visual Experts to Resolve the Information Loss in
Multimodal Large Language Models [121.83413400686139]
本稿では,MLLMの視覚知覚能力を向上させるために,知識の混合強化機構を提案する。
本稿では,マルチタスクエンコーダとビジュアルツールを既存のMLLM訓練と推論パイプラインに組み込む新しい手法を提案する。
論文 参考訳(メタデータ) (2024-01-06T02:02:34Z) - Controllable Multi-document Summarization: Coverage & Coherence
Intuitive Policy with Large Language Model Based Rewards [42.171703872560286]
可制御性(英: controllability)とは、複数文書の要約などの長い入力を持つテキスト生成タスクにおいて問題となる問題である。
LLMによって洗練されるテキストを抽出するために、制御可能なコンテンツ抽出スキームを訓練する。
提案手法は,ROUGE測定値を用いた評価において競争結果が得られ,コヒーレンスにおける潜在的なベースラインよりも優れる。
論文 参考訳(メタデータ) (2023-10-05T11:29:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。