Fugu-MT 論文翻訳(概要): Efficient End-to-End Visual Document Understanding with Rationale Distillation

論文の概要: Efficient End-to-End Visual Document Understanding with Rationale Distillation

arxiv url: http://arxiv.org/abs/2311.09612v1
Date: Thu, 16 Nov 2023 06:50:26 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-17 16:13:59.045174
Title: Efficient End-to-End Visual Document Understanding with Rationale Distillation
Title（参考訳）: Rationale蒸留による効率的な視覚文書理解
Authors: Wang Zhu, Alekh Agarwal, Mandar Joshi, Robin Jia, Jesse Thomason, Kristina Toutanova
Abstract要約: 我々は、学習データに基づいて、入力質問に対する理性と答えの両方を予測するために、小さな学生モデルを訓練する。 Pix2Struct(282Mパラメータ)に基づく学生モデルは、3つのビジュアル文書理解ベンチマークで一貫した改善を実現する。
参考スコア（独自算出の注目度）: 45.45316789343615
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Understanding visually situated language requires recognizing text and visual elements, and interpreting complex layouts. State-of-the-art methods commonly use specialized pre-processing tools, such as optical character recognition (OCR) systems, that map document image inputs to extracted information in the space of textual tokens, and sometimes also employ large language models (LLMs) to reason in text token space. However, the gains from external tools and LLMs come at the cost of increased computational and engineering complexity. In this paper, we ask whether small pretrained image-to-text models can learn selective text or layout recognition and reasoning as an intermediate inference step in an end-to-end model for pixel-level visual language understanding. We incorporate the outputs of such OCR tools, LLMs, and larger multimodal models as intermediate ``rationales'' on training data, and train a small student model to predict both rationales and answers for input questions based on those training examples. A student model based on Pix2Struct (282M parameters) achieves consistent improvements on three visual document understanding benchmarks representing infographics, scanned documents, and figures, with improvements of more than 4\% absolute over a comparable Pix2Struct model that predicts answers directly.
Abstract（参考訳）: 視覚的に位置付けられた言語を理解するには、テキストと視覚要素を認識し、複雑なレイアウトを解釈する必要がある。最先端の手法では、文書画像入力をテキストトークンの空間から抽出した情報にマッピングするocr(optical character recognition)システムのような特殊な前処理ツールが一般的であり、テキストトークン空間を推論するために大言語モデル(llm)を使うこともある。しかし、外部ツールやllmからの利益は、計算とエンジニアリングの複雑さが増大するコストで得られる。本稿では,ピクセルレベル視覚言語理解のためのエンド・ツー・エンドモデルの中間的推論ステップとして,事前学習された画像からテキストへの小さなモデルが選択テキストやレイアウトの認識や推論を学習できるかどうかを問う。我々は,これらのOCRツールやLLM,および大規模マルチモーダルモデルの出力を,トレーニングデータに中間的な 'rationales'' として組み込んで,これらのトレーニング例に基づいて,理性と回答の両方を予測するために,小学生モデルを訓練する。 Pix2Struct(282Mパラメータ)に基づく学生モデルは、インフォグラフィック、スキャンされた文書、数字を表す3つのビジュアル文書理解ベンチマークに対して一貫した改善を達成し、回答を直接予測するPix2Structモデルよりも4倍以上絶対的に改善する。

関連論文リスト

LogicOCR: Do Your Large Multimodal Models Excel at Logical Reasoning on Text-Rich Images? [80.4577892387028]
テキストリッチな画像上でLMMの論理的推論能力を評価するために設計された1,100の多重選択質問からなるベンチマークであるLogicOCRを紹介する。我々は、テキストコーパスをマルチモーダルサンプルに変換するスケーラブルで自動化されたパイプラインを開発した。我々は,Chain-of-Thought (CoT) とダイレクト・アンサー・セッティングの両方で,オープンソースとプロプライエタリなLMMを多岐にわたって評価する。
論文参考訳（メタデータ） (2025-05-18T08:39:37Z)
Éclair -- Extracting Content and Layout with Integrated Reading Order for Documents [7.358946120326249]
本稿では,テキスト抽出ツールである'Eclairについて紹介する。画像が与えられたら、"Eclairは、バウンディングボックスとその対応するセマンティッククラスとともに、読み順でフォーマットされたテキストを抽出できる。このベンチマークで'Eclair'は最先端の精度を達成し、主要なメトリクスで他のメソッドよりも優れています。
論文参考訳（メタデータ） (2025-02-06T17:07:22Z)
DoPTA: Improving Document Layout Analysis using Patch-Text Alignment [3.3181276611945267]
本稿では,文書画像のテキスト情報を利用した視覚的タスクの性能向上を目的とした,新しい画像テキストアライメント手法を提案する。本手法で訓練した文書エンコーダモデルDoPTAは,OCRを必要とせず,幅広い文書イメージ理解タスクにおいて高い性能を示す。 DoPTAはまた、D4LAと2つの挑戦的なドキュメントビジュアル分析ベンチマークであるFUNSDで、新しい最先端のアート結果も設定している。
論文参考訳（メタデータ） (2024-12-17T13:26:31Z)
LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文参考訳（メタデータ） (2024-03-21T09:25:24Z)
EfficientOCR: An Extensible, Open-Source Package for Efficiently Digitizing World Knowledge [1.8434042562191815]
EffOCRは、オープンソースの光文字認識(OCR)パッケージである。これは、大規模にテキストを解放するための計算とサンプルの効率の要求を満たす。 EffOCRは安価で、トレーニングにはサンプルの効率がよい。
論文参考訳（メタデータ） (2023-10-16T04:20:16Z)
UReader: Universal OCR-free Visually-situated Language Understanding with Multimodal Large Language Model [108.85584502396182]
MLLM(Multimodal Large Language Model)に基づく汎用OCRのない視覚的言語理解の最初の探索であるUReaderを提案する。 MLLMの浅いテキスト認識能力を利用することで、パラメータを1.2%だけ微調整した。言語理解タスク10のうち8つは、最先端のocrフリーな性能を実現している。
論文参考訳（メタデータ） (2023-10-08T11:33:09Z)
mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文参考訳（メタデータ） (2023-07-04T11:28:07Z)
Pix2Struct: Screenshot Parsing as Pretraining for Visual Language Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。 4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文参考訳（メタデータ） (2022-10-07T06:42:06Z)
LayoutLMv3: Pre-training for Document AI with Unified Text and Image Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文参考訳（メタデータ） (2022-04-18T16:19:52Z)
Scaling Up Visual and Vision-Language Representation Learning With Noisy Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文参考訳（メタデータ） (2021-02-11T10:08:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。