論文の概要: VDInstruct: Zero-Shot Key Information Extraction via Content-Aware Vision Tokenization
- arxiv url: http://arxiv.org/abs/2507.09531v1
- Date: Sun, 13 Jul 2025 08:15:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-15 20:53:35.141101
- Title: VDInstruct: Zero-Shot Key Information Extraction via Content-Aware Vision Tokenization
- Title(参考訳): VDInstruct:コンテンツ認識型視覚トークン化によるゼロショットキー情報抽出
- Authors: Son Nguyen, Giang Nguyen, Hung Dao, Thao Do, Daeyoung Kim,
- Abstract要約: 鍵情報抽出は、視覚文書の理解の基盤となる。
既存のマルチモーダルな大言語モデル (MLLM) は、高密度な文書ではよく機能しない。
本稿では,空間領域検出と意味的特徴抽出を分離するMLLMであるVDInstructを紹介する。
- 参考スコア(独自算出の注目度): 7.769156392417315
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Key Information Extraction (KIE) underpins the understanding of visual documents (e.g., receipts and contracts) by extracting precise semantic content and accurately capturing spatial structure. Yet existing multimodal large language models (MLLMs) often perform poorly on dense documents and rely on vision tokenization approaches that scale with image size, leading to redundant computation and memory inefficiency. To address these challenges, we introduce VDInstruct, an MLLM that separates spatial region detection from semantic feature extraction. Central to our model is a content-aware tokenization strategy: rather than fragmenting the entire image uniformly, it generates tokens in proportion to document complexity, preserving critical structure while eliminating wasted tokens. Leveraging a three-stage training paradigm, our model achieves state-of-the-art (SOTA) results on KIE benchmarks, matching or exceeding the accuracy of leading approaches while reducing the number of image tokens by roughly 3.6x. In zero-shot evaluations, VDInstruct surpasses strong baselines-such as DocOwl 1.5-by +5.5 F1 points, highlighting its robustness to unseen documents. These findings show that content-aware tokenization combined with explicit layout modeling offers a promising direction forward for document understanding. Data, source code, and model weights will be made publicly available.
- Abstract(参考訳): キー情報抽出(KIE)は、正確な意味内容を抽出し、空間構造を正確に把握することにより、視覚的文書(例えば、領収書、契約書)の理解を促進する。
しかし、既存のマルチモーダルな大規模言語モデル(MLLM)は、高密度なドキュメントではよく機能せず、画像サイズに合わせてスケールする視覚トークン化アプローチに依存しており、冗長な計算とメモリ非効率をもたらす。
これらの課題に対処するために,空間領域検出と意味的特徴抽出を分離するMLLMであるVDInstructを導入する。
イメージ全体を一様に断片化する代わりに、ドキュメントの複雑さに比例してトークンを生成し、無駄なトークンを排除しながら重要な構造を保存する。
3段階のトレーニングパラダイムを活用することで,KIEベンチマーク上でのSOTA(State-of-the-art)結果の達成を実現し,画像トークンの数を約3.6倍に削減した。
ゼロショット評価では、VDInstructはDocOwl 1.5-by +5.5 F1ポイントのような強力なベースラインを超え、目に見えないドキュメントに対する堅牢性を強調している。
これらの結果は、コンテンツ認識トークン化と明示的なレイアウトモデリングを組み合わせることで、文書理解に有望な方向性をもたらすことを示している。
データ、ソースコード、モデルの重み付けが公開されます。
関連論文リスト
- QID: Efficient Query-Informed ViTs in Data-Scarce Regimes for OCR-free Visual Document Understanding [53.69841526266547]
トレーニング済みのVision-Language Modelを新しいデータセットで微調整することは、ビジョンエンコーダの最適化に不足することが多い。
視覚エンコーダにクエリの埋め込みを統合する,新しい,合理化されたアーキテクチャ保存アプローチであるQIDを導入する。
論文 参考訳(メタデータ) (2025-04-03T18:47:16Z) - Towards Text-Image Interleaved Retrieval [49.96332254241075]
テキスト画像検索(TIIR)タスクを導入し、クエリと文書をインターリーブしたテキスト画像シーケンスとする。
我々は、自然にインターリーブされたwikiHowチュートリアルに基づいてTIIRベンチマークを構築し、インターリーブされたクエリを生成するために特定のパイプラインを設計する。
異なる粒度で視覚トークンの数を圧縮する新しいMMEを提案する。
論文 参考訳(メタデータ) (2025-02-18T12:00:47Z) - Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。
画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。
このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文 参考訳(メタデータ) (2025-02-06T17:07:22Z) - HAND: Hierarchical Attention Network for Multi-Scale Handwritten Document Recognition and Layout Analysis [21.25786478579275]
手書き文書認識は、コンピュータビジョンにおいて最も難しいタスクの1つである。
伝統的に、この問題は手書き文字認識とレイアウト解析という2つの別々のタスクとしてアプローチされてきた。
本稿では,テキスト認識とレイアウト解析を同時に行うための,新しいエンドツーエンドおよびセグメンテーションフリーアーキテクチャであるHANDを紹介する。
論文 参考訳(メタデータ) (2024-12-25T20:36:29Z) - mPLUG-DocOwl2: High-resolution Compressing for OCR-free Multi-page Document Understanding [103.05835688963947]
本稿では,高解像度文書画像を324個のトークンに圧縮する高解像度DocCompressorモジュールを提案する。
DocOwl2は、マルチページ文書理解ベンチマークにまたがる最先端の新たなベンチマークを設定し、最初のトークンレイテンシを50%以上削減する。
同様のデータで訓練されたシングルイメージMLLMと比較して、DocOwl2はビジュアルトークンの20%未満で、同等のシングルページ理解性能を実現しています。
論文 参考訳(メタデータ) (2024-09-05T11:09:00Z) - Matryoshka Multimodal Models [92.41824727506751]
我々はM3: Matryoshka Multimodal Modelsを提案する。
COCOスタイルのベンチマークでは,576個のトークンを使用する場合と同様の精度を得るために,9個のビジュアルトークンしか必要としないことがわかった。
論文 参考訳(メタデータ) (2024-05-27T17:59:56Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - Efficient End-to-End Visual Document Understanding with Rationale Distillation [43.28272448274713]
Rationale Distillation (RD)は、理性と答えの両方を予測するために、小さな学生モデルを訓練する。
RDは、計算コストが1%高いだけで、4-5%の絶対精度でベースモデルを上回っている。
論文 参考訳(メタデータ) (2023-11-16T06:50:26Z) - Attention Where It Matters: Rethinking Visual Document Understanding
with Selective Region Concentration [26.408343160223517]
本稿では,SeRumという文書理解モデルを提案する。
SeRumは、画像理解と認識タスクを視覚トークンの局所的な復号プロセスに変換する。
本稿では,SeRumが文書理解タスクの最先端性能とテキストスポッティングタスクの競合結果を達成することを示す。
論文 参考訳(メタデータ) (2023-09-03T10:14:34Z) - One-shot Key Information Extraction from Document with Deep Partial
Graph Matching [60.48651298832829]
ドキュメントからキー情報抽出(KIE)は、多くの産業シナリオにおいて効率、生産性、セキュリティを改善する。
KIEタスクのための既存の教師付き学習手法は、多数のラベル付きサンプルを供給し、異なる種類の文書の別々のモデルを学ぶ必要がある。
部分グラフマッチングを用いたワンショットKIEのためのディープエンド・ツー・エンド・トレーニング可能なネットワークを提案する。
論文 参考訳(メタデータ) (2021-09-26T07:45:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。