論文の概要: InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document
Understanding with Instructions
- arxiv url: http://arxiv.org/abs/2401.13313v1
- Date: Wed, 24 Jan 2024 09:09:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 15:09:28.270026
- Title: InstructDoc: A Dataset for Zero-Shot Generalization of Visual Document
Understanding with Instructions
- Title(参考訳): InstructDoc:インストラクションによるビジュアルドキュメント理解のゼロショット一般化のためのデータセット
- Authors: Ryota Tanaka, Taichi Iki, Kyosuke Nishida, Kuniko Saito, Jun Suzuki
- Abstract要約: InstructDocは、30の一般公開されたビジュアルドキュメント理解データセットの大規模なコレクションである。
InstructDrは、トレーニング可能なブリッジモジュールを通じて、ドキュメントイメージ、イメージエンコーダ、および大きな言語モデル(LLM)を接続する。
実験では、InstructDrが与えられた命令を介して、新しいVDUデータセット、タスク、ドメインに効果的に適応できることが示されている。
- 参考スコア(独自算出の注目度): 30.609533589284634
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study the problem of completing various visual document understanding
(VDU) tasks, e.g., question answering and information extraction, on real-world
documents through human-written instructions. To this end, we propose
InstructDoc, the first large-scale collection of 30 publicly available VDU
datasets, each with diverse instructions in a unified format, which covers a
wide range of 12 tasks and includes open document types/formats. Furthermore,
to enhance the generalization performance on VDU tasks, we design a new
instruction-based document reading and understanding model, InstructDr, that
connects document images, image encoders, and large language models (LLMs)
through a trainable bridging module. Experiments demonstrate that InstructDr
can effectively adapt to new VDU datasets, tasks, and domains via given
instructions and outperforms existing multimodal LLMs and ChatGPT without
specific training.
- Abstract(参考訳): 本研究では,人間の手書きによる実世界の文書に対する質問応答や情報抽出など,様々な視覚的文書理解(VDU)タスクを完了させる問題について検討する。
この目的のために、InstructDocは、30の公開VDUデータセットからなる最初の大規模コレクションであり、それぞれに様々な命令を統一された形式で提供し、12のタスクを幅広くカバーし、オープンなドキュメントタイプ/フォーマットを含む。
さらに, vduタスクの一般化性能を向上させるために, 学習可能なブリッジングモジュールを用いて, 文書画像, 画像エンコーダ, 大型言語モデル(llms)を接続する新しい命令ベースの文書読解理解モデルinstructdrを設計した。
実験により、InstructDrは与えられた命令を通じて新しいVDUデータセット、タスク、ドメインに効果的に適応でき、特定のトレーニングなしで既存のマルチモーダルLLMやChatGPTより優れていることが示されている。
関連論文リスト
- DocKD: Knowledge Distillation from LLMs for Open-World Document Understanding Models [66.91204604417912]
本研究の目的は,LLMの知識を蒸留することにより,小型VDUモデルの一般化性を高めることである。
我々は、外部文書知識を統合することでデータ生成プロセスを強化する新しいフレームワーク(DocKD)を提案する。
実験の結果,DocKDは高品質な文書アノテーションを生成し,直接知識蒸留手法を超越していることがわかった。
論文 参考訳(メタデータ) (2024-10-04T00:53:32Z) - MMInstruct: A High-Quality Multi-Modal Instruction Tuning Dataset with Extensive Diversity [80.02202386597138]
高品質で多様な視覚指導訓練データセットMMInstructを構築し、24ドメインの973K命令で構成されている。
提案する命令生成エンジンは,手作業のコストで半自動,低コスト,マルチドメインの命令生成を可能にする。
論文 参考訳(メタデータ) (2024-07-22T17:55:22Z) - HRVDA: High-Resolution Visual Document Assistant [32.51417315241559]
本稿では,MLLMと視覚文書理解のギャップを埋めるための高解像度ビジュアルドキュメントアシスタント(HRVDA)を提案する。
HRVDAはコンテンツフィルタリング機構と命令フィルタリングモジュールを使用して、コンテンツに依存しないビジュアルトークンと命令に依存しないビジュアルトークンをフィルタリングする。
本モデルは,複数の文書理解データセットにまたがる最先端性能を実現する。
論文 参考訳(メタデータ) (2024-04-10T11:10:50Z) - Visually Guided Generative Text-Layout Pre-training for Document Intelligence [51.09853181377696]
視覚誘導型生成テキスト事前学習(ViTLP)を提案する。
文書画像が与えられた場合、モデルは階層言語とレイアウトモデリングの目的を最適化し、インターリーブされたテキストとレイアウトシーケンスを生成する。
ViTLPは、文書画像のテキストをローカライズし、認識するためのネイティブなOCRモデルとして機能する。
論文 参考訳(メタデータ) (2024-03-25T08:00:43Z) - LayoutLLM: Large Language Model Instruction Tuning for Visually Rich Document Understanding [0.0]
本稿では,より柔軟な画像文書解析手法であるLayoutLLMを提案する。
画像,テキスト,レイアウト構造を事前学習することで,文書の理解を高める手法が開発されている。
本実験は,文書解析タスクにおけるベースラインモデルの改善を実証する。
論文 参考訳(メタデータ) (2024-03-21T09:25:24Z) - DocPedia: Unleashing the Power of Large Multimodal Model in the Frequency Domain for Versatile Document Understanding [91.17151775296234]
本研究は, OCRフリー文書理解のための新しい大規模マルチモーダルモデル(LMM)であるDocPediaを提案する。
既存の作業では高解像度のドキュメントで苦労したり、大きな言語モデルを捨てたり、視覚や言語能力に制約があったりするのに対して、DocPediaでは、ピクセル空間ではなく、周波数領域の視覚入力を直接処理しています。
論文 参考訳(メタデータ) (2023-11-20T14:42:25Z) - mPLUG-DocOwl: Modularized Multimodal Large Language Model for Document
Understanding [55.4806974284156]
文書理解とは、ウェブページのようなデジタル文書から自動的に情報を抽出し、分析し、理解することである。
既存のMLLM(Multi-model Large Language Models)は、浅いOCRフリーテキスト認識において、望ましくないゼロショット機能を実証している。
論文 参考訳(メタデータ) (2023-07-04T11:28:07Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。