論文の概要: Efficient End-to-End Visual Document Understanding with Rationale
Distillation
- arxiv url: http://arxiv.org/abs/2311.09612v1
- Date: Thu, 16 Nov 2023 06:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:13:59.045174
- Title: Efficient End-to-End Visual Document Understanding with Rationale
Distillation
- Title(参考訳): Rationale蒸留による効率的な視覚文書理解
- Authors: Wang Zhu, Alekh Agarwal, Mandar Joshi, Robin Jia, Jesse Thomason,
Kristina Toutanova
- Abstract要約: 我々は、学習データに基づいて、入力質問に対する理性と答えの両方を予測するために、小さな学生モデルを訓練する。
Pix2Struct(282Mパラメータ)に基づく学生モデルは、3つのビジュアル文書理解ベンチマークで一貫した改善を実現する。
- 参考スコア(独自算出の注目度): 45.45316789343615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding visually situated language requires recognizing text and visual
elements, and interpreting complex layouts. State-of-the-art methods commonly
use specialized pre-processing tools, such as optical character recognition
(OCR) systems, that map document image inputs to extracted information in the
space of textual tokens, and sometimes also employ large language models (LLMs)
to reason in text token space. However, the gains from external tools and LLMs
come at the cost of increased computational and engineering complexity. In this
paper, we ask whether small pretrained image-to-text models can learn selective
text or layout recognition and reasoning as an intermediate inference step in
an end-to-end model for pixel-level visual language understanding. We
incorporate the outputs of such OCR tools, LLMs, and larger multimodal models
as intermediate ``rationales'' on training data, and train a small student
model to predict both rationales and answers for input questions based on those
training examples. A student model based on Pix2Struct (282M parameters)
achieves consistent improvements on three visual document understanding
benchmarks representing infographics, scanned documents, and figures, with
improvements of more than 4\% absolute over a comparable Pix2Struct model that
predicts answers directly.
- Abstract(参考訳): 視覚的に位置付けられた言語を理解するには、テキストと視覚要素を認識し、複雑なレイアウトを解釈する必要がある。
最先端の手法では、文書画像入力をテキストトークンの空間から抽出した情報にマッピングするocr(optical character recognition)システムのような特殊な前処理ツールが一般的であり、テキストトークン空間を推論するために大言語モデル(llm)を使うこともある。
しかし、外部ツールやllmからの利益は、計算とエンジニアリングの複雑さが増大するコストで得られる。
本稿では,ピクセルレベル視覚言語理解のためのエンド・ツー・エンドモデルの中間的推論ステップとして,事前学習された画像からテキストへの小さなモデルが選択テキストやレイアウトの認識や推論を学習できるかどうかを問う。
我々は,これらのOCRツールやLLM,および大規模マルチモーダルモデルの出力を,トレーニングデータに中間的な 'rationales'' として組み込んで,これらのトレーニング例に基づいて,理性と回答の両方を予測するために,小学生モデルを訓練する。
Pix2Struct(282Mパラメータ)に基づく学生モデルは、インフォグラフィック、スキャンされた文書、数字を表す3つのビジュアル文書理解ベンチマークに対して一貫した改善を達成し、回答を直接予測するPix2Structモデルよりも4倍以上絶対的に改善する。
関連論文リスト
- LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。
画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。
本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文 参考訳(メタデータ) (2024-03-21T09:25:24Z) - EfficientOCR: An Extensible, Open-Source Package for Efficiently
Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。
これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。
EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文 参考訳(メタデータ) (2023-10-16T04:20:16Z) - UReader: Universal OCR-free Visually-situated Language Understanding
with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。
MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。
言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文 参考訳(メタデータ) (2023-10-08T11:33:09Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。