論文の概要: Continuous QA Learning with Structured Prompts
- arxiv url: http://arxiv.org/abs/2208.14602v3
- Date: Fri, 15 Mar 2024 01:53:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-19 08:01:36.041980
- Title: Continuous QA Learning with Structured Prompts
- Title(参考訳): 構造化プロンプトによる継続的QA学習
- Authors: Yinhe Zheng,
- Abstract要約: Dianaは動的アーキテクチャベースの生涯QAモデルで、一連のQAタスクを学習しようとする。
階層的に整理された4つのプロンプトは、異なる粒度からQA知識を取得するためにダイアナで使用される。
実験では、Dianaは、特に目に見えないタスクの処理において、最先端のQAモデルよりも優れています。
- 参考スコア(独自算出の注目度): 20.246786740364133
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: QA models with lifelong learning (LL) abilities are important for practical QA applications, and architecture-based LL methods are reported to be an effective implementation for these models. However, it is non-trivial to extend previous approaches to QA tasks since they either require access to task identities in the testing phase or do not explicitly model samples from unseen tasks. In this paper, we propose Diana: a dynamic architecture-based lifelong QA model that tries to learn a sequence of QA tasks with a prompt enhanced language model. Four types of hierarchically organized prompts are used in Diana to capture QA knowledge from different granularities. Specifically, we dedicate task-level prompts to capture task-specific knowledge to retain high LL performances and maintain instance-level prompts to learn knowledge shared across different input samples to improve the model's generalization performance. Moreover, we dedicate separate prompts to explicitly model unseen tasks and introduce a set of prompt key vectors to facilitate knowledge sharing between tasks. Extensive experiments demonstrate that Diana outperforms state-of-the-art lifelong QA models, especially in handling unseen tasks.
- Abstract(参考訳): 生涯学習能力を持つQAモデルは実践的なQAアプリケーションにとって重要であり、アーキテクチャベースのLLメソッドはこれらのモデルに効果的な実装であると報告されている。
しかし、テストフェーズでタスクの同一性にアクセスするか、目に見えないタスクからのサンプルを明示的にモデル化しないため、以前のアプローチをQAタスクに拡張するのは簡単ではない。
本稿では,動的アーキテクチャに基づくQAモデルであるDianaを提案する。
階層的に整理された4つのプロンプトは、異なる粒度からQA知識を取得するためにダイアナで使用される。
具体的には、タスク固有の知識をキャプチャして高いLL性能を維持するためのタスクレベルのプロンプトと、異なる入力サンプル間で共有される知識をインスタンスレベルのプロンプトで学習し、モデルの一般化性能を改善する。
さらに、未確認タスクを明示的にモデル化するための個別のプロンプトと、タスク間の知識共有を容易にするための一連のプロンプトキーベクターを導入する。
大規模な実験により、Dianaは最先端のQAモデルよりも優れており、特に目に見えないタスクを処理している。
関連論文リスト
- Gotta: Generative Few-shot Question Answering by Prompt-based Cloze Data
Augmentation [18.531941086922256]
QA (Few-shot Question answering) は、コンテキストパスから一連の質問に対する回答を正確に発見することを目的としている。
我々は,ジェネレーティブPROmpTベースのdaTa拡張フレームワークであるGottaを開発した。
人間の推論プロセスにインスパイアされた我々は、クローズタスクを統合して、数発のQA学習を強化することを提案する。
論文 参考訳(メタデータ) (2023-06-07T01:44:43Z) - Few-shot Unified Question Answering: Tuning Models or Prompts? [23.885286975673644]
本稿では,低リソース環境下での統一QAのためのチューニング,モデル,プロンプトの2つのパラダイムの可能性について検討する。
この研究は、数ショットの環境で統合されたQAのための迅速なチューニングの利点と制限に関する洞察を提供する。
論文 参考訳(メタデータ) (2023-05-23T23:14:38Z) - Long-Tailed Question Answering in an Open World [46.67715607552547]
我々は、Long-Tailed QA (OLTQA) を、長い尾の分散データから学習するものとして定義する。
OLTQAモデルを提案し,頭,尾,目立たないタスク間の知識共有を促進する。
大規模なOLTQAデータセットでは、我々のモデルは一貫して最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2023-05-11T04:28:58Z) - Domain Incremental Lifelong Learning in an Open World [45.704746275089555]
textbfDiana: a underlinedynamunderlineic underlinearchitecture based lifelounderlineng leunderlinearning model。
ダイアナでは4種類の階層的に整理されたプロンプトが、異なる粒度から知識を取得するために使われている。
論文 参考訳(メタデータ) (2023-05-11T04:19:08Z) - ProQA: Structural Prompt-based Pre-training for Unified Question
Answering [84.59636806421204]
ProQAは統一されたQAパラダイムであり、単一のモデルによって様々なタスクを解決する。
全てのQAタスクの知識一般化を同時にモデル化し、特定のQAタスクの知識カスタマイズを維持します。
ProQAは、フルデータの微調整、数ショットの学習、ゼロショットテストシナリオの両方のパフォーマンスを一貫して向上させる。
論文 参考訳(メタデータ) (2022-05-09T04:59:26Z) - Continual Object Detection via Prototypical Task Correlation Guided
Gating Mechanism [120.1998866178014]
pRotOtypeal taSk corrElaTion guided gaTingAnism (ROSETTA)による連続物体検出のためのフレキシブルなフレームワークを提案する。
具体的には、統一されたフレームワークはすべてのタスクで共有され、タスク対応ゲートは特定のタスクのサブモデルを自動的に選択するために導入されます。
COCO-VOC、KITTI-Kitchen、VOCのクラスインクリメンタル検出、および4つのタスクの逐次学習の実験により、ROSETTAが最先端のパフォーマンスを得ることが示された。
論文 参考訳(メタデータ) (2022-05-06T07:31:28Z) - Improved and Efficient Conversational Slot Labeling through Question
Answering [48.670822631047635]
Transformer-based Pretrained Language Model (PLM) は、自然言語理解(NLU)タスクの大部分に適合しないパフォーマンスを提供する。
本稿では,対話のためのNLUの重要なコンポーネントであるテキストスロットラベリング(SL)のモデリングと研究に焦点をあてる。
本稿では,QA調整型PLMをSLタスクに適用し,新しい最先端性能を実現する方法を示す。
論文 参考訳(メタデータ) (2022-04-05T11:34:35Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。