論文の概要: Layout and Task Aware Instruction Prompt for Zero-shot Document Image
Question Answering
- arxiv url: http://arxiv.org/abs/2306.00526v2
- Date: Fri, 30 Jun 2023 12:03:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-03 15:04:12.396028
- Title: Layout and Task Aware Instruction Prompt for Zero-shot Document Image
Question Answering
- Title(参考訳): ゼロショット文書画像質問応答のためのレイアウトとタスク認識命令プロンプト
- Authors: Wenjin Wang, Yunhao Li, Yixin Ou, Yin Zhang
- Abstract要約: LATIN-Promptと呼ばれるレイアウトとタスク認識命令プロンプトを提案する。
レイアウト対応のドキュメントコンテンツとタスク対応の記述で構成されている。
その結果,LATIN-Promptは命令調整言語基礎モデルのゼロショット性能を向上させることができることがわかった。
- 参考スコア(独自算出の注目度): 20.174739615839176
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: The pre-training-fine-tuning paradigm based on layout-aware multimodal
pre-trained models has achieved significant progress on document image question
answering. However, domain pre-training and task fine-tuning for additional
visual, layout, and task modules prevent them from directly utilizing
off-the-shelf instruction-tuning language foundation models, which have
recently shown promising potential in zero-shot learning. Contrary to aligning
language models to the domain of document image question answering, we align
document image question answering to off-the-shell instruction-tuning language
foundation models to utilize their zero-shot capability. Specifically, we
propose layout and task aware instruction prompt called LATIN-Prompt, which
consists of layout-aware document content and task-aware descriptions. The
former recovers the layout information among text segments from OCR tools by
appropriate spaces and line breaks. The latter ensures that the model generates
answers that meet the requirements, especially format requirements, through a
detailed description of task. Experimental results on three benchmarks show
that LATIN-Prompt can improve the zero-shot performance of instruction-tuning
language foundation models on document image question answering and help them
achieve comparable levels to SOTAs based on the pre-training-fine-tuning
paradigm. Quantitative analysis and qualitative analysis demonstrate the
effectiveness of LATIN-Prompt. We provide the code in supplementary and will
release the code to facilitate future research.
- Abstract(参考訳): レイアウト対応マルチモーダル事前学習モデルに基づく事前学習・微調整パラダイムは,文書画像質問応答において大きな進歩を遂げた。
しかし、追加のビジュアル、レイアウト、タスクモジュールのためのドメイン事前トレーニングとタスクの微調整は、ゼロショット学習の有望な可能性を最近示した、既製の命令チューニング言語基盤モデルを直接活用することを妨げる。
文書画像質問応答の領域に言語モデルを整合させるのとは対照的に,ゼロショット機能を利用するために,シェルから外れた命令チューニング言語基礎モデルに文書画像質問応答を整合させる。
具体的には、レイアウト対応文書の内容とタスク対応記述からなるLATIN-Promptと呼ばれるレイアウトおよびタスク対応命令プロンプトを提案する。
前者は、OCRツールからテキストセグメント間のレイアウト情報を適切なスペースと線分で復元する。
後者は、タスクの詳細な記述を通じて、モデルが要求、特にフォーマット要求を満たす回答を生成することを保証します。
3つのベンチマークによる実験結果から,LATIN-Promptは文書画像質問応答に基づく命令調整言語基礎モデルのゼロショット性能を改善し,事前学習学習パラダイムに基づくSOTAに匹敵するレベルを達成できることが示されている。
定量的解析と質的分析により,ラテン・プロンプトの有効性が示された。
補助的なコードを提供し、将来の研究を促進するためのコードをリリースします。
関連論文リスト
- A Tale of Two Languages: Large-Vocabulary Continuous Sign Language Recognition from Spoken Language Supervision [74.972172804514]
我々は,署名された言語と音声のテキスト間の共同埋め込み空間において,署名シーケンスと出力を抽出できるマルチタスクトランスフォーマーモデルCSLR2を導入する。
新しいデータセットアノテーションは、6時間のテストビデオに対して、連続的なサインレベルアノテーションを提供する。
私たちのモデルは、両方のタスクにおいて、過去の技術状況よりも大幅に優れています。
論文 参考訳(メタデータ) (2024-05-16T17:19:06Z) - Learning by Correction: Efficient Tuning Task for Zero-Shot Generative Vision-Language Reasoning [22.93684323791136]
生成視覚言語モデル(VLM)は、画像キャプションや視覚質問応答といったゼロショット視覚言語タスクにおいて、印象的なパフォーマンスを示している。
我々は、ラベル付きタスクを必要とせず、ICCCのゼロショット性能を向上させるために設計された新しい事前訓練タスクであるイメージコンディションド・キャプション・コレクション(ICCC)を導入する。
BLIP-2 と InstructBLIP の実験結果から,ICCC 命令チューニングによるゼロショット画像テキスト生成タスクの大幅な改善が示された。
論文 参考訳(メタデータ) (2024-04-01T04:28:01Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - ALIP: Adaptive Language-Image Pre-training with Synthetic Caption [78.93535202851278]
コントラスト言語-画像事前学習(CLIP)は、様々な視覚言語タスクのパフォーマンスを大幅に向上させた。
Webデータに固有のノイズと未整合画像テキストペアが存在することは、表現学習のパフォーマンスに影響を与える可能性がある。
本稿では、原文と合成キャプションの両方からの監督を統合するバイパスモデルであるAdaptive Language-Image Pre-Training(ALIP)を提案する。
論文 参考訳(メタデータ) (2023-08-16T15:19:52Z) - Bootstrapping Vision-Language Learning with Decoupled Language
Pre-training [46.570154746311935]
本稿では,資源集約型視覚言語事前学習のための凍結型大規模言語モデル (LLM) の最適化を目的とした新しい手法を提案する。
われわれのアプローチは、言語コンポーネントに集中して、視覚的特徴と整合する最適なプロンプトを具体的に特定することによって、多様化している。
我々のフレームワークは、ビデオ学習タスクにおけるその成功例によって検証されるように、アーキテクチャ設計の観点からは、モダリティ非依存かつ柔軟である。
論文 参考訳(メタデータ) (2023-07-13T21:08:15Z) - ERNIE-Layout: Layout Knowledge Enhanced Pre-training for Visually-rich
Document Understanding [52.3895498789521]
レイアウト知識を向上した新しい文書事前学習ソリューションであるERNIEを提案する。
まず、直列化段階で入力シーケンスを並べ替え、相関的な事前学習タスクを示し、順序予測を行い、文書の適切な読み順序を学習する。
実験の結果、ERNIEは様々な下流タスクにおいて優れた性能を示し、キー情報に新たな最先端設定、文書質問応答を実現している。
論文 参考訳(メタデータ) (2022-10-12T12:59:24Z) - A Few-shot Approach to Resume Information Extraction via Prompts [0.0]
本稿では,情報抽出を再開するために即時学習を適用する。
手作業でテンプレートを作成し、テキストを再開するように調整します。
本報告では,特定のアプリケーションに対して,言語処理を行うためのルールであるMKV(Manual Knowledgeable Verbalizer)を提案する。
論文 参考訳(メタデータ) (2022-09-20T04:01:46Z) - Finetuned Language Models Are Zero-Shot Learners [67.70352207685558]
命令チューニングは、目に見えないタスクにおけるゼロショット性能を向上することを示す。
137Bパラメータを事前訓練した言語モデルと、自然言語の命令テンプレートを介して言語化された60以上のNLPタスクにチューニングする。
FLANと呼ばれるこの命令調整モデルについて、未知のタスクタイプで評価する。
論文 参考訳(メタデータ) (2021-09-03T17:55:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。