論文の概要: DocPrompt: Large-scale continue pretrain for zero-shot and few-shot
document question answering
- arxiv url: http://arxiv.org/abs/2308.10959v1
- Date: Mon, 21 Aug 2023 18:14:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-23 20:08:37.952045
- Title: DocPrompt: Large-scale continue pretrain for zero-shot and few-shot
document question answering
- Title(参考訳): DocPrompt: ゼロショットと少数ショットの文書質問応答のための大規模継続事前トレーニング
- Authors: Sijin Wu, Dan Zhang, Teng Hu, Shikun Feng
- Abstract要約: 本稿では,ゼロショットと少数ショットのパフォーマンスを持つ文書質問応答タスクのためのDocpromptを提案する。
実験結果から, ドクトプロンプトモデルが既存の強いベースラインモデルより有意に優れていたことが示唆された。
- 参考スコア(独自算出の注目度): 12.243822684855681
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we propose Docprompt for document question answering tasks
with powerful zero-shot and few-shot performance. We proposed a novel weakly
supervised data generation method, a novel multl-stage training method and a
novel understanding model & generation model ensemble method. Experiment
results show that the Docprompt model after continue pretrain significantly
outperforms the existing strong baseline models on document question answering
tasks. This method greatly improves the delivery efficiency and model
performance of document question answering customer projects, reducing
annotation costs and labor costs. Our demo can be found at
https://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout.
- Abstract(参考訳): 本稿では,ゼロショットと少数ショットのパフォーマンスを持つ文書質問応答タスクのためのDocpromptを提案する。
本研究では,弱い教師付きデータ生成手法,新しいマルチステージ学習法,新しい理解モデルと生成モデルアンサンブル法を提案する。
実験の結果、docpromptモデルは、文書質問応答タスクにおいて既存の強力なベースラインモデルを大きく上回ることがわかった。
この手法は、顧客プロジェクトに対する文書質問の配信効率とモデル性能を大幅に改善し、アノテーションコストと労力コストを削減する。
私たちのデモはhttps://huggingface.co/spaces/PaddlePaddle/ERNIE-Layout.orgにある。
関連論文リスト
- M-Longdoc: A Benchmark For Multimodal Super-Long Document Understanding And A Retrieval-Aware Tuning Framework [75.95430061891828]
851サンプルのベンチマークであるM-LongDocと、大規模マルチモーダルモデルの性能を評価するための自動フレームワークを紹介する。
効率的なマルチモーダル文書読解のための検索対応チューニング手法を提案する。
論文 参考訳(メタデータ) (2024-11-09T13:30:38Z) - Recurrent Few-Shot model for Document Verification [1.9686770963118383]
汎用ID, 旅行, 文書画像, 映像ベースの検証システムはまだ, 解決すべき問題として十分な性能を達成できていない。
本稿では,数ショットのシナリオで偽文書を検出可能なリカレントベースモデルを提案する。
SIDTDとFinditデータセットの予備的な結果は、このタスクのためにこのモデルの優れたパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-03T13:05:27Z) - LaCo: Large Language Model Pruning via Layer Collapse [56.92068213969036]
トランスフォーマーに基づく大規模言語モデル(LLM)は、サイズ拡大の顕著な傾向を目撃している。
モデル量子化、知識蒸留、モデルプルーニングといった既存の手法は、様々な問題によって制約されている。
後部モデル層が前層に崩壊する「textitLayer Collapse (LaCo)」と呼ばれる簡潔な層構造プルーナーを提案する。
論文 参考訳(メタデータ) (2024-02-17T04:16:30Z) - Peek Across: Improving Multi-Document Modeling via Cross-Document
Question-Answering [49.85790367128085]
我々は,事前学習対象に答える新しいクロスドキュメント質問から,汎用的なマルチドキュメントモデルを事前学習する。
この新規なマルチドキュメントQA定式化は、クロステキスト情報関係をよりよく回復させるようモデルに指示する。
分類タスクや要約タスクに焦点を当てた従来のマルチドキュメントモデルとは異なり、事前学習対象の定式化により、短いテキスト生成と長いテキスト生成の両方を含むタスクを実行できる。
論文 参考訳(メタデータ) (2023-05-24T17:48:40Z) - Self-Prompting Large Language Models for Zero-Shot Open-Domain QA [67.08732962244301]
Open-Domain Question Answering (ODQA)は、背景文書を明示的に提供せずに質問に答えることを目的としている。
このタスクは、調整済みの検索リーダーモデルをトレーニングするデータがないゼロショット設定で顕著に困難になる。
本稿では,大規模言語モデルのパラメータに符号化された膨大な知識を明示的に活用するセルフプロンプトフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T18:23:43Z) - XDoc: Unified Pre-training for Cross-Format Document Understanding [84.63416346227176]
XDocは、単一のモデルで異なるドキュメントフォーマットを扱う、統合された事前訓練されたモデルである。
XDocは、トレーニング済みの個々のモデルと比較して、さまざまなダウンストリームタスクで同等またはそれ以上のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-10-06T12:07:18Z) - Ask Me Anything: A simple strategy for prompting language models [24.294416731247427]
大規模言語モデル(LLM)は、単に自然言語のプロンプトを与えられただけである。
そこで本研究では,質問応答(QA)のプロンプトが,モデル出力を制限するプロンプトよりも優れていることを示す。
収集したプロンプトを適用して、入力の真のラベルに対していくつかのノイズの多い投票を行う。
プロンプトは、非常に異なる精度と複雑な依存関係を持つことができる。
論文 参考訳(メタデータ) (2022-10-05T17:59:45Z) - PSP: Pre-trained Soft Prompts for Few-Shot Abstractive Summarization [18.698740243997953]
我々は,数ショットの抽象的な要約をサポートするために,新しいソフトプロンプトアーキテクチャを開発した。
文書レベルの情報をキャプチャするために、テキストに新しいインナープロンプトを配置する。
パラメータの0.1%しか持たない本手法は、全てのモデルパラメータがチューニングされるフルモデルチューニングよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-04-09T07:40:52Z) - Focused Attention Improves Document-Grounded Generation [111.42360617630669]
文書基盤生成は、文書に提供される情報を用いてテキスト生成を改善するタスクである。
本研究はwikipedia更新生成タスクと対話応答生成という2つの異なる文書基底生成タスクに焦点を当てている。
論文 参考訳(メタデータ) (2021-04-26T16:56:29Z) - Substance over Style: Document-Level Targeted Content Transfer [42.18770674148932]
文書レベルのターゲットコンテンツ転送のタスクを導入し、レシピドメインで対処する。
生成事前学習言語モデル(GPT-2)に基づく新しいタスクモデルを提案する。
自動評価と人的評価の両方で、我々のモデルは既存の手法よりも優れています。
論文 参考訳(メタデータ) (2020-10-16T20:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。