論文の概要: "What is the value of {templates}?" Rethinking Document Information Extraction Datasets for LLMs
- arxiv url: http://arxiv.org/abs/2410.15484v1
- Date: Sun, 20 Oct 2024 19:42:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-22 13:13:28.943216
- Title: "What is the value of {templates}?" Rethinking Document Information Extraction Datasets for LLMs
- Title(参考訳): 「Tempplates」の価値は何か? : LLMにおける文書情報抽出データセットの再考
- Authors: Ran Zmigrod, Pranav Shetty, Mathieu Sibue, Zhiqiang Ma, Armineh Nourbakhsh, Xiaomo Liu, Manuela Veloso,
- Abstract要約: K2Qは、KIEからベスポークテンプレートを多用したプロンプト応答形式に変換された5つのデータセットの集合である。
K2Q上の7つのベースライン生成モデルの性能をゼロショットプロンプトと経験的に比較した。
多様な複雑なKIE質問を作成すれば,VRDUモデルの性能と堅牢性が向上することがわかった。
- 参考スコア(独自算出の注目度): 19.07429412219697
- License:
- Abstract: The rise of large language models (LLMs) for visually rich document understanding (VRDU) has kindled a need for prompt-response, document-based datasets. As annotating new datasets from scratch is labor-intensive, the existing literature has generated prompt-response datasets from available resources using simple templates. For the case of key information extraction (KIE), one of the most common VRDU tasks, past work has typically employed the template "What is the value for the {key}?". However, given the variety of questions encountered in the wild, simple and uniform templates are insufficient for creating robust models in research and industrial contexts. In this work, we present K2Q, a diverse collection of five datasets converted from KIE to a prompt-response format using a plethora of bespoke templates. The questions in K2Q can span multiple entities and be extractive or boolean. We empirically compare the performance of seven baseline generative models on K2Q with zero-shot prompting. We further compare three of these models when training on K2Q versus training on simpler templates to motivate the need of our work. We find that creating diverse and intricate KIE questions enhances the performance and robustness of VRDU models. We hope this work encourages future studies on data quality for generative model training.
- Abstract(参考訳): 視覚的にリッチな文書理解(VRDU)のための大規模言語モデル(LLM)の台頭は、迅速な応答型文書ベースデータセットの必要性を和らげている。
スクラッチから新しいデータセットを注釈付けするのは労力がかかるため、既存の文献では、シンプルなテンプレートを使用して利用可能なリソースから即時応答データセットを生成している。
最も一般的なVRDUタスクの1つであるキー情報抽出(KIE)の場合、過去の作業では「キーの値とは何か?」というテンプレートが用いられてきた。
しかし、野生で遭遇する様々な問題を考えると、単純で均一なテンプレートは研究や産業の文脈で堅牢なモデルを作成するには不十分である。
そこで本研究では,K2Qを提案する。K2Qは,KIEからベスポークテンプレートを多用した,プロンプト応答形式に変換された5つのデータセットの多種多様なコレクションである。
K2Qの質問は複数のエンティティにまたがり、抽出またはブール化することができる。
K2Q上の7つのベースライン生成モデルの性能をゼロショットプロンプトと経験的に比較した。
さらに、K2Qでトレーニングする場合と、よりシンプルなテンプレートでトレーニングする場合の3つのモデルを比較して、作業の必要性を動機付けます。
多様な複雑なKIE質問を作成すれば,VRDUモデルの性能と堅牢性が向上することがわかった。
この研究によって、生成モデルトレーニングのためのデータ品質に関する将来の研究が促進されることを願っている。
関連論文リスト
- Rethinking Data Synthesis: A Teacher Model Training Recipe with Interpretation [8.013158752919722]
大規模言語モデル(LLM)訓練の最近の進歩は、多種多様な高品質な命令データの必要性を強調している。
データ生成のためのモデルを具体的に訓練する方法を検討することにより、 textbfNOMAD というパラダイムシフトを提案する。
論文 参考訳(メタデータ) (2024-10-27T07:38:39Z) - Less is More: Making Smaller Language Models Competent Subgraph Retrievers for Multi-hop KGQA [51.3033125256716]
本研究では,小言語モデルで処理される条件生成タスクとして,サブグラフ検索タスクをモデル化する。
2億2千万のパラメータからなる基本生成部分グラフ検索モデルでは,最先端モデルと比較して競合検索性能が向上した。
LLMリーダを接続した最大の3Bモデルは、WebQSPとCWQベンチマークの両方で、SOTAのエンドツーエンドパフォーマンスを新たに設定します。
論文 参考訳(メタデータ) (2024-10-08T15:22:36Z) - CRAFT Your Dataset: Task-Specific Synthetic Dataset Generation Through Corpus Retrieval and Augmentation [51.2289822267563]
合成データセットを生成するCRAFT(Corpus Retrieval and Augmentation for Fine-Tuning)を提案する。
我々は、大規模な公開ウェブクローラコーパスと類似性に基づく文書検索を用いて、他の関連する人文文書を検索する。
我々は,CRAFTが4つのタスクに対して,大規模タスク固有のトレーニングデータセットを効率的に生成できることを実証した。
論文 参考訳(メタデータ) (2024-09-03T17:54:40Z) - Jaeger: A Concatenation-Based Multi-Transformer VQA Model [0.13654846342364307]
文書に基づく視覚質問応答は,言語感覚の曖昧さと細粒度マルチモーダル検索の間に難しい課題を生じさせる。
本稿では,結合型マルチトランスVQAモデルであるJaegarを提案する。
我々のアプローチは、結合によってこれらのモデルの性能を増幅する可能性がある。
論文 参考訳(メタデータ) (2023-10-11T00:14:40Z) - Unlocking Model Insights: A Dataset for Automated Model Card Generation [4.167070553534516]
25のMLモデルに対して500対の質問応答ペアのデータセットを導入する。
元の論文から回答を抽出するためにアノテーションを使用します。
また,ChatGPT-3.5,LLaMa,Galacticaを用いた実験では,これらのLMによる研究論文の理解に大きなギャップが認められた。
論文 参考訳(メタデータ) (2023-09-22T04:46:11Z) - AnnoLLM: Making Large Language Models to Be Better Crowdsourced Annotators [98.11286353828525]
GPT-3.5シリーズのモデルは、様々なNLPタスクにまたがる顕著な少数ショットとゼロショットの能力を示している。
本稿では,2段階のアプローチを取り入れたAnnoLLMを提案する。
我々はAnnoLLMを用いた対話型情報検索データセットを構築した。
論文 参考訳(メタデータ) (2023-03-29T17:03:21Z) - When Can Models Learn From Explanations? A Formal Framework for
Understanding the Roles of Explanation Data [84.87772675171412]
個々のデータポイントの説明がモデリング性能を向上させる状況について検討する。
e-SNLI、TACRED、SemEvalの3つの既存のデータセットを使って説明します。
論文 参考訳(メタデータ) (2021-02-03T18:57:08Z) - KGPT: Knowledge-Grounded Pre-Training for Data-to-Text Generation [100.79870384880333]
知識に富んだテキストを生成するための知識基盤事前学習(KGPT)を提案する。
我々は、その効果を評価するために、3つの設定、すなわち、完全教師付き、ゼロショット、少数ショットを採用します。
ゼロショット設定では、WebNLG上で30 ROUGE-L以上を達成するが、他の全てのベースラインは失敗する。
論文 参考訳(メタデータ) (2020-10-05T19:59:05Z) - Dense-Caption Matching and Frame-Selection Gating for Temporal
Localization in VideoQA [96.10612095576333]
本稿では,マルチモーダルな入力源を効果的に統合し,時間的関連情報から質問に答えるビデオ質問応答モデルを提案する。
また,2レベルアテンション(単語・オブジェクト・フレームレベル),異なるソース(ビデオ・高密度キャプション)に対するマルチヘッド自己統合,ゲートへのより関連性の高い情報伝達などで構成されている。
当社のモデルは,各モデルコンポーネントが大きな利益をもたらす,難易度の高いTVQAデータセット上で評価され,全体的なモデルでは,最先端のモデルよりも大きなマージンで優れています。
論文 参考訳(メタデータ) (2020-05-13T16:35:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。