論文の概要: Efficient End-to-End Visual Document Understanding with Rationale
Distillation
- arxiv url: http://arxiv.org/abs/2311.09612v1
- Date: Thu, 16 Nov 2023 06:50:26 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-17 16:13:59.045174
- Title: Efficient End-to-End Visual Document Understanding with Rationale
Distillation
- Title(参考訳): Rationale蒸留による効率的な視覚文書理解
- Authors: Wang Zhu, Alekh Agarwal, Mandar Joshi, Robin Jia, Jesse Thomason,
Kristina Toutanova
- Abstract要約: 我々は、学習データに基づいて、入力質問に対する理性と答えの両方を予測するために、小さな学生モデルを訓練する。
Pix2Struct(282Mパラメータ)に基づく学生モデルは、3つのビジュアル文書理解ベンチマークで一貫した改善を実現する。
- 参考スコア(独自算出の注目度): 45.45316789343615
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Understanding visually situated language requires recognizing text and visual
elements, and interpreting complex layouts. State-of-the-art methods commonly
use specialized pre-processing tools, such as optical character recognition
(OCR) systems, that map document image inputs to extracted information in the
space of textual tokens, and sometimes also employ large language models (LLMs)
to reason in text token space. However, the gains from external tools and LLMs
come at the cost of increased computational and engineering complexity. In this
paper, we ask whether small pretrained image-to-text models can learn selective
text or layout recognition and reasoning as an intermediate inference step in
an end-to-end model for pixel-level visual language understanding. We
incorporate the outputs of such OCR tools, LLMs, and larger multimodal models
as intermediate ``rationales'' on training data, and train a small student
model to predict both rationales and answers for input questions based on those
training examples. A student model based on Pix2Struct (282M parameters)
achieves consistent improvements on three visual document understanding
benchmarks representing infographics, scanned documents, and figures, with
improvements of more than 4\% absolute over a comparable Pix2Struct model that
predicts answers directly.
- Abstract(参考訳): 視覚的に位置付けられた言語を理解するには、テキストと視覚要素を認識し、複雑なレイアウトを解釈する必要がある。
最先端の手法では、文書画像入力をテキストトークンの空間から抽出した情報にマッピングするocr(optical character recognition)システムのような特殊な前処理ツールが一般的であり、テキストトークン空間を推論するために大言語モデル(llm)を使うこともある。
しかし、外部ツールやllmからの利益は、計算とエンジニアリングの複雑さが増大するコストで得られる。
本稿では,ピクセルレベル視覚言語理解のためのエンド・ツー・エンドモデルの中間的推論ステップとして,事前学習された画像からテキストへの小さなモデルが選択テキストやレイアウトの認識や推論を学習できるかどうかを問う。
我々は,これらのOCRツールやLLM,および大規模マルチモーダルモデルの出力を,トレーニングデータに中間的な 'rationales'' として組み込んで,これらのトレーニング例に基づいて,理性と回答の両方を予測するために,小学生モデルを訓練する。
Pix2Struct(282Mパラメータ)に基づく学生モデルは、インフォグラフィック、スキャンされた文書、数字を表す3つのビジュアル文書理解ベンチマークに対して一貫した改善を達成し、回答を直接予測するPix2Structモデルよりも4倍以上絶対的に改善する。
関連論文リスト
- Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - Pix2Struct: Screenshot Parsing as Pretraining for Visual Language
Understanding [58.70423899829642]
Pix2Structは、純粋に視覚的な言語理解のための事前訓練された画像-テキストモデルである。
4つの領域にまたがる9つのタスクのうち6つのタスクにおいて、1つの事前訓練されたモデルが最先端の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-10-07T06:42:06Z) - ASIF: Coupled Data Turns Unimodal Models to Multimodal Without Training [29.240131406803794]
単一のドメインエンコーダとより少ない画像テキストペアを用いて、トレーニングを一切行わずに共通空間を作成することができることを示す。
私たちのモデルにはユニークな特性があり、特に注目すべきは、新しいバージョンをデプロイして、更新されたトレーニングサンプルを数秒で実行できることです。
論文 参考訳(メタデータ) (2022-10-04T16:56:22Z) - Visually-Augmented Language Modeling [137.36789885105642]
本稿では,言語モデリングのための関連画像を含むテキストトークンを視覚的に拡張する,VaLMという新しい事前学習フレームワークを提案する。
視覚的に拡張されたコンテキストでは、VaLMは視覚知識融合層を使用してマルチモーダル基底言語モデリングを可能にする。
視覚情報を必要とする多モーダル・コモンセンス推論タスクについて,提案モデルの評価を行った。
論文 参考訳(メタデータ) (2022-05-20T13:41:12Z) - Vision-Language Pre-Training for Boosting Scene Text Detectors [57.08046351495244]
シーンテキスト検出に視覚言語を用いた共同学習を特に応用する。
本稿では,視覚言語による事前学習を通して,文脈化された共同表現を学習することを提案する。
事前訓練されたモデルは、よりリッチなセマンティクスでより情報的な表現を生成することができる。
論文 参考訳(メタデータ) (2022-04-29T03:53:54Z) - LayoutLMv3: Pre-training for Document AI with Unified Text and Image
Masking [83.09001231165985]
テキストと画像のマスキングを併用した文書AIのためのマルチモーダルトランスフォーマーを事前学習するためのLayoutLMv3を提案する。
単純な統一アーキテクチャとトレーニングの目的により、LayoutLMv3はテキスト中心および画像中心のDocument AIタスクの汎用的な事前トレーニングモデルになる。
論文 参考訳(メタデータ) (2022-04-18T16:19:52Z) - Scaling Up Visual and Vision-Language Representation Learning With Noisy
Text Supervision [57.031588264841]
高価なフィルタリングや後処理のステップを使わずに得られる10億以上の画像アルトテキストペアのノイズの多いデータセットを活用します。
単純なデュアルエンコーダアーキテクチャは、画像とテキストペアの視覚的および言語的表現を、対照的な損失を使って整列させることを学ぶ。
コーパスのスケールはノイズを補うことができ、そのような単純な学習方式であっても最先端の表現に繋がることを示す。
論文 参考訳(メタデータ) (2021-02-11T10:08:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。