論文の概要: DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models
- arxiv url: http://arxiv.org/abs/2410.03061v1
- Date: Fri, 4 Oct 2024 00:53:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-03 04:06:08.349303
- Title: DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models
- Title(参考訳): DocKD:オープンワールド文書理解モデルのためのLLMからの知識蒸留
- Authors: Sungnyun Kim, Haofu Liao, Srikar Appalaraju, Peng Tang, Zhuowen Tu, Ravi Kumar Satzoda, R. Manmatha, Vijay Mahadevan, Stefano Soatto,
- Abstract要約: 本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
- 参考スコア(独自算出の注目度): 66.91204604417912
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Visual document understanding (VDU) is a challenging task that involves understanding documents across various modalities (text and image) and layouts (forms, tables, etc.). This study aims to enhance generalizability of small VDU models by distilling knowledge from LLMs. We identify that directly prompting LLMs often fails to generate informative and useful data. In response, we present a new framework (called DocKD) that enriches the data generation process by integrating external document knowledge. Specifically, we provide an LLM with various document elements like key-value pairs, layouts, and descriptions, to elicit open-ended answers. Our experiments show that DocKD produces high-quality document annotations and surpasses the direct knowledge distillation approach that does not leverage external document knowledge. Moreover, student VDU models trained with solely DocKD-generated data are not only comparable to those trained with human-annotated data on in-domain tasks but also significantly excel them on out-of-domain tasks.
- Abstract(参考訳): ビジュアル文書理解(VDU)は、様々なモダリティ(テキストや画像)とレイアウト(フォーム、テーブルなど)にわたる文書の理解を伴う、困難なタスクである。
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
LLMの直接的なプロンプトは、しばしば情報的で有用なデータを生成するのに失敗する。
これに対し、外部文書知識を統合することでデータ生成プロセスを充実させる新しいフレームワーク(DocKD)を提案する。
具体的には、キーと値のペアやレイアウト、記述など、さまざまなドキュメント要素を備えたLCMを提供し、オープンな回答を導き出します。
実験の結果,DocKDは高品質な文書アノテーションを生成し,外部文書知識を活用できない直接知識蒸留手法を超越していることがわかった。
さらに、DocKD生成データのみでトレーニングされた学生VDUモデルは、ドメイン内タスクで人間が注釈付けしたデータでトレーニングされたモデルに匹敵するだけでなく、ドメイン外タスクで大幅に最適化されている。
関連論文リスト
- Leveraging Distillation Techniques for Document Understanding: A Case Study with FLAN-T5 [0.0]
本稿では,LLM ChatGPTから文書理解知識をFLAN-T5に抽出する手法を提案する。
本研究は, 実世界のシナリオにおける高度言語モデルの展開を促進する蒸留技術の可能性を明らかにするものである。
論文 参考訳(メタデータ) (2024-09-17T15:37:56Z) - Instruction-tuned Language Models are Better Knowledge Learners [106.38526595116961]
文書の学習に先立って質問を指導するPIT(Pre-instruction-tuning)を提案する。
大規模な実験とアブレーション研究により、プレインストラクションチューニングはLLMが新しい文書から知識を吸収する能力を著しく向上させることが示された。
論文 参考訳(メタデータ) (2024-02-20T09:20:32Z) - InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document
Understanding with Instructions [30.609533589284634]
InstructDocは、30の一般公開されたビジュアルドキュメント理解データセットの大規模なコレクションである。
InstructDrは、トレーニング可能なブリッジモジュールを通じて、ドキュメントイメージ、イメージエンコーダ、および大きな言語モデル(LLM)を接続する。
実験では、InstructDrが与えられた命令を介して、新しいVDUデータセット、タスク、ドメインに効果的に適応できることが示されている。
論文 参考訳(メタデータ) (2024-01-24T09:09:37Z) - Privacy-Aware Document Visual Question Answering [44.82362488593259]
この研究はDocVQAで使用されるマルチモーダルLLMモデルの現状におけるプライバシー問題を強調している。
本稿では,請求書と関連する質問と回答を含む大規模DocVQAデータセットを提案する。
プライベートでないモデルは記憶に残る傾向があり、プライベートな情報が露出する可能性があることを実証する。
論文 参考訳(メタデータ) (2023-12-15T06:30:55Z) - LMDX: Language Model-based Document Information Extraction and Localization [23.656970495804963]
大規模言語モデル(LLM)は自然言語処理(NLP)に革命をもたらした
視覚的に豊かな文書から情報を抽出する彼らの応用は、まだ成功していない。
このタスクにLLMを採用する主な障害は、LLM内にレイアウトエンコーディングがないことである。
論文 参考訳(メタデータ) (2023-09-19T22:32:56Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - DocumentNet: Bridging the Data Gap in Document Pre-Training [78.01647768018485]
本稿では,Webから大規模かつ弱いラベル付きデータを収集し,VDERモデルの学習に役立てる手法を提案する。
収集されたデータセットはDocumentNetと呼ばれ、特定のドキュメントタイプやエンティティセットに依存しない。
広く採用されているVDERタスクの実験は、DocumentNetを事前トレーニングに組み込んだ場合、大幅に改善されている。
論文 参考訳(メタデータ) (2023-06-15T08:21:15Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。