論文の概要: ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data
- arxiv url: http://arxiv.org/abs/2407.12358v1
- Date: Wed, 17 Jul 2024 07:29:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-18 18:07:45.430830
- Title: ProcTag: Process Tagging for Assessing the Efficacy of Document Instruction Data
- Title(参考訳): ProcTag: ドキュメントインストラクションデータの有効性を評価するプロセスタギング
- Authors: Yufan Shen, Chuwei Luo, Zhaoqing Zhu, Yang Chen, Qi Zheng, Zhi Yu, Jiajun Bu, Cong Yao,
- Abstract要約: ProcTagは、文書命令データの有効性を評価するデータ指向の手法である。
実験により、既存のオープンソースおよび生成された文書VQA/インストラクションデータセットをProcTagでサンプリングすることは、インストラクションデータを評価する現在の方法よりも大幅に優れていることが示された。
- 参考スコア(独自算出の注目度): 28.553840579302484
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recently, large language models (LLMs) and multimodal large language models (MLLMs) have demonstrated promising results on document visual question answering (VQA) task, particularly after training on document instruction datasets. An effective evaluation method for document instruction data is crucial in constructing instruction data with high efficacy, which, in turn, facilitates the training of LLMs and MLLMs for document VQA. However, most existing evaluation methods for instruction data are limited to the textual content of the instructions themselves, thereby hindering the effective assessment of document instruction datasets and constraining their construction. In this paper, we propose ProcTag, a data-oriented method that assesses the efficacy of document instruction data. ProcTag innovatively performs tagging on the execution process of instructions rather than the instruction text itself. By leveraging the diversity and complexity of these tags to assess the efficacy of the given dataset, ProcTag enables selective sampling or filtering of document instructions. Furthermore, DocLayPrompt, a novel semi-structured layout-aware document prompting strategy, is proposed for effectively representing documents. Experiments demonstrate that sampling existing open-sourced and generated document VQA/instruction datasets with ProcTag significantly outperforms current methods for evaluating instruction data. Impressively, with ProcTag-based sampling in the generated document datasets, only 30.5\% of the document instructions are required to achieve 100\% efficacy compared to the complete dataset. The code is publicly available at https://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/ProcTag .
- Abstract(参考訳): 近年,大規模言語モデル (LLMs) とマルチモーダル大規模言語モデル (MLLMs) が文書視覚質問応答 (VQA) タスクにおいて有望な結果を示した。
文書命令データの効果的な評価法は、文書VQAのための LLM と MLLM の訓練を容易にする高効率な命令データの構築に不可欠である。
しかし、既存の命令データの評価手法は、命令自体のテキストの内容に限られており、文書の命令データセットの効果的な評価や構成の制約を妨げている。
本稿では,文書命令データの有効性を評価するデータ指向手法であるProcTagを提案する。
ProcTagは、命令テキスト自体ではなく、命令の実行プロセスにタグ付けを革新的に行う。
これらのタグの多様性と複雑さを活用して、与えられたデータセットの有効性を評価することにより、ProcTagはドキュメント命令の選択的なサンプリングやフィルタリングを可能にする。
さらに,文書を効果的に表現するための半構造化レイアウト対応文書作成戦略であるDocLayPromptを提案する。
実験により、既存のオープンソースおよび生成された文書VQA/インストラクションデータセットをProcTagでサンプリングすることは、インストラクションデータを評価する現在の方法よりも大幅に優れていることが示された。
興味深いことに、生成した文書データセットのProcTagベースのサンプリングでは、完全なデータセットに比べて100倍の有効性を達成するために、文書命令の30.55%しか必要とされない。
コードはhttps://github.com/AlibabaResearch/AdvancedLiterateMachinery/tree/main/DocumentUnderstanding/ProcTag で公開されている。
関連論文リスト
- TableLLM: Enabling Tabular Data Manipulation by LLMs in Real Office Usage Scenarios [52.73289223176475]
TableLLMは、13億のパラメータを持つ堅牢な大規模言語モデル(LLM)である。
TableLLMはデータ操作タスクを巧みに扱うために構築されている。
我々は、ユーザインタラクションのためのモデルチェックポイント、ソースコード、ベンチマーク、Webアプリケーションをリリースした。
論文 参考訳(メタデータ) (2024-03-28T11:21:12Z) - ACID: Abstractive, Content-Based IDs for Document Retrieval with
Language Models [69.86170930261841]
ACIDを導入し、それぞれのドキュメントのIDは、大きな言語モデルによって生成される抽象的なキーフレーズから構成される。
我々はACIDの使用がトップ10とトップ20の精度を15.6%、14.4%改善することを示した。
本研究は,LMを用いた生成検索における人間可読な自然言語IDの有効性を実証するものである。
論文 参考訳(メタデータ) (2023-11-14T23:28:36Z) - ODSum: New Benchmarks for Open Domain Multi-Document Summarization [30.875191848268347]
Open- Domain Multi-Document Summarization (ODMDS) は、大量のドキュメントを一貫性のある簡潔な要約に集約するための重要なツールである。
我々は,クエリに基づく文書要約データセットをODMDSデータセットに処理するためのルールベース手法を提案する。
論文 参考訳(メタデータ) (2023-09-16T11:27:34Z) - Automated Few-shot Classification with Instruction-Finetuned Language
Models [76.69064714392165]
我々は、AuT-Fewが最先端の数ショット学習方法より優れていることを示す。
AuT-Few は RAFT few-shot ベンチマークにおいて,データセット間で最高のランク付け手法であることを示す。
論文 参考訳(メタデータ) (2023-05-21T21:50:27Z) - Zero-Shot Listwise Document Reranking with a Large Language Model [58.64141622176841]
本稿では,タスク固有の学習データを用いることなく,言語モデル(LRL)を用いたリスワイズ・リランカを提案する。
3つのTRECウェブサーチデータセットの実験により、LRLは第1段検索結果の再ランク付け時にゼロショットポイントワイズ法より優れるだけでなく、最終段再ランカとしても機能することが示された。
論文 参考訳(メタデータ) (2023-05-03T14:45:34Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Value Retrieval with Arbitrary Queries for Form-like Documents [50.5532781148902]
フォーム状文書に対する任意のクエリを用いた値検索を提案する。
本手法は,フォームのレイアウトやセマンティクスの理解に基づいて,任意のクエリのターゲット値を予測する。
本稿では,大規模モデル事前学習における文書理解を改善するためのシンプルな文書言語モデリング (simpleDLM) 戦略を提案する。
論文 参考訳(メタデータ) (2021-12-15T01:12:02Z) - Extracting Procedural Knowledge from Technical Documents [1.0773368566852943]
手続きは、自動化、質問応答、会話の推進のために認知アシスタントが活用できる文書の重要な知識コンポーネントである。
プロダクトマニュアルやユーザガイドといった巨大なドキュメントを解析して,どの部分でプロシージャについて話しているのかを自動的に理解し,それを抽出することは,非常に難しい問題です。
論文 参考訳(メタデータ) (2020-10-20T09:47:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。