論文の概要: Efficient End-to-End Visual Document Understanding with Rationale Distillation
- arxiv url: http://arxiv.org/abs/2311.09612v2
- Date: Tue, 2 Apr 2024 00:11:50 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-04 12:23:14.908918
- Title: Efficient End-to-End Visual Document Understanding with Rationale Distillation
- Title(参考訳): Rationale 蒸留による高能率視覚文書理解
- Authors: Wang Zhu, Alekh Agarwal, Mandar Joshi, Robin Jia, Jesse Thomason, Kristina Toutanova,
- Abstract要約: Rationale Distillation (RD)は、理性と答えの両方を予測するために、小さな学生モデルを訓練する。
RDは、計算コストが1%高いだけで、4-5%の絶対精度でベースモデルを上回っている。
- 参考スコア(独自算出の注目度): 43.28272448274713
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding visually situated language requires interpreting complex layouts of textual and visual elements. Pre-processing tools, such as optical character recognition (OCR), can map document image inputs to textual tokens, then large language models (LLMs) can reason over text. However, such methods have high computational and engineering complexity. Can small pretrained image-to-text models accurately understand visual documents through similar recognition and reasoning steps instead? We propose Rationale Distillation (RD), which incorporates the outputs of OCR tools, LLMs, and larger multimodal models as intermediate "rationales", and trains a small student model to predict both rationales and answers. On three visual document understanding benchmarks representing infographics, scanned documents, and figures, our Pix2Struct (282M parameters) student model finetuned with RD outperforms the base model by 4-5% absolute accuracy with only 1% higher computational cost.
- Abstract(参考訳): 視覚的に位置する言語を理解するには、テキストおよび視覚要素の複雑なレイアウトを解釈する必要がある。
光文字認識(OCR)のような前処理ツールでは、文書イメージの入力をテキストトークンにマッピングし、大きな言語モデル(LLM)をテキスト上で推論することができる。
しかし、そのような手法は計算と工学の複雑さが高い。
小さな事前訓練された画像からテキストへのモデルでは、視覚文書の認識と推論の手順を正確に理解できるだろうか?
我々は,OCRツール,LLM,および大規模マルチモーダルモデルの出力を中間的「有理数」として組み込んだRationale Distillation (RD)を提案し,理数と答えの両方を予測するために,小学生モデルを訓練した。
インフォグラフィック、スキャンされた文書、数字を表す3つのビジュアル文書理解ベンチマークでは、RDで微調整されたPix2Struct(282Mパラメータ)の学生モデルは、計算コストをわずか1%上回る4-5%の絶対精度でベースモデルを上回ります。
関連論文リスト
- LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。
画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。
本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文 参考訳(メタデータ) (2024-03-21T09:25:24Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。