論文の概要: Layout and Task Aware Instruction Prompt for Zero-shot Document Image
Question Answering
- arxiv url: http://arxiv.org/abs/2306.00526v4
- Date: Thu, 7 Sep 2023 08:40:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-08 17:19:10.469816
- Title: Layout and Task Aware Instruction Prompt for Zero-shot Document Image
Question Answering
- Title(参考訳): ゼロショット文書画像質問応答のためのレイアウトとタスク認識命令プロンプト
- Authors: Wenjin Wang, Yunhao Li, Yixin Ou, Yin Zhang
- Abstract要約: Claude や ChatGPT のような命令チューニング言語モデルでは,レイアウトを空間や線分で理解することができる。
本稿では,Alpaca などの小型命令学習モデルの性能向上を図るため,LATIN-Prompt (Layout and Task aware Instruction Prompt) を提案する。
- 参考スコア(独自算出の注目度): 13.942561172695815
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Layout-aware pre-trained models has achieved significant progress on document
image question answering. They introduce extra learnable modules into existing
language models to capture layout information within document images from text
bounding box coordinates obtained by OCR tools. However, extra modules
necessitate pre-training on extensive document images. This prevents these
methods from directly utilizing off-the-shelf instruction-tuning language
foundation models, which have recently shown promising potential in zero-shot
learning. Instead, in this paper, we find that instruction-tuning language
models like Claude and ChatGPT can understand layout by spaces and line breaks.
Based on this observation, we propose the LAyout and Task aware Instruction
Prompt (LATIN-Prompt), which consists of layout-aware document content and
task-aware instruction. Specifically, the former uses appropriate spaces and
line breaks to recover the layout information among text segments obtained by
OCR tools, and the latter ensures that generated answers adhere to formatting
requirements. Moreover, we propose the LAyout and Task aware Instruction Tuning
(LATIN-Tuning) to improve the performance of small instruction-tuning models
like Alpaca. Experimental results show that LATIN-Prompt enables zero-shot
performance of Claude and ChatGPT to be comparable to the fine-tuning
performance of SOTAs on document image question answering, and LATIN-Tuning
enhances the zero-shot performance of Alpaca significantly. For example,
LATIN-Prompt improves the performance of Claude and ChatGPT on DocVQA by 263%
and 20% respectively. LATIN-Tuning improves the performance of Alpaca on DocVQA
by 87.7%. Quantitative and qualitative analyses demonstrate the effectiveness
of LATIN-Prompt and LATIN-Tuning. We provide the code in supplementary and will
release it to facilitate future research.
- Abstract(参考訳): レイアウト対応事前学習モデルは,文書画像質問応答において大きな進歩を遂げた。
既存の言語モデルに学習可能な追加モジュールを導入し、OCRツールが取得したテキスト境界ボックス座標から文書イメージ内のレイアウト情報をキャプチャする。
しかし、追加モジュールはドキュメントイメージの事前トレーニングを必要とする。
これにより、ゼロショット学習の有望な可能性を最近示した、既製の命令チューニング言語基盤モデルを直接利用することができない。
そこで本稿では,claude や chatgpt といった命令チューニング言語モデルが,空間やラインブレークによってレイアウトを理解できることを示す。
そこで本研究では,レイアウト対応文書の内容とタスク対応命令からなるレイアウトおよびタスク対応命令プロンプト(latin-prompt)を提案する。
具体的には、ocrツールが取得したテキストセグメント間のレイアウト情報を復元するために適切なスペースとラインブレークを使用しており、後者は生成された回答がフォーマット要件に準拠していることを保証する。
さらに、alpacaのような小さな命令チューニングモデルの性能を向上させるために、レイアウトおよびタスク認識命令チューニング(latin-tuning)を提案する。
LATIN-Promptは文書画像質問応答におけるSOTAの微調整性能に匹敵する、ClaudeとChatGPTのゼロショット性能を実現し、LATIN-TuningはAlpacaのゼロショット性能を大幅に向上させることを示した。
例えば、LATIN-PromptはDocVQA上でのClaudeとChatGPTのパフォーマンスをそれぞれ263%、20%改善する。
LATIN-TuningはDocVQA上でのAlpacaの性能を87.7%改善した。
LATIN-PromptとLATIN-Tuningの有効性を定量的に定性的に解析した。
コードを補足的に提供し、将来の研究を促進するためにリリースします。
関連論文リスト
- A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning [22.93684323791136]
生成視覚言語モデル(VLM)は、画像キャプションや視覚質問応答といったゼロショット視覚言語タスクにおいて、印象的なパフォーマンスを示している。
我々は、ラベル付きタスクを必要とせず、ICCCのゼロショット性能を向上させるために設計された新しい事前訓練タスクであるイメージコンディションド・キャプション・コレクション(ICCC)を導入する。
BLIP-2 と InstructBLIP の実験結果から,ICCC 命令チューニングによるゼロショット画像テキスト生成タスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-04-01T04:28:01Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - A Few-shot Approach to Resume Information Extraction via Prompts [0.0]
本稿では,情報抽出を再開するために即時学習を適用する。
手作業でテンプレートを作成し、テキストを再開するように調整します。
本報告では,特定のアプリケーションに対して,言語処理を行うためのルールであるMKV(Manual Knowledgeable Verbalizer)を提案する。
論文 参考訳(メタデータ) (2022-09-20T04:01:46Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。