論文の概要: Meta-training with Demonstration Retrieval for Efficient Few-shot
Learning
- arxiv url: http://arxiv.org/abs/2307.00119v1
- Date: Fri, 30 Jun 2023 20:16:22 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-05 18:03:39.636210
- Title: Meta-training with Demonstration Retrieval for Efficient Few-shot
Learning
- Title(参考訳): 実演検索を用いたメタトレーニングによる能率的少数ショット学習
- Authors: Aaron Mueller, Kanika Narang, Lambert Mathias, Qifan Wang, Hamed
Firooz
- Abstract要約: 大規模な言語モデルは、数ショットのNLPタスクで印象的な結果を示す。
これらのモデルはメモリと計算集約である。
本稿では,実演検索によるメタトレーニングを提案する。
- 参考スコア(独自算出の注目度): 11.723856248352007
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models show impressive results on few-shot NLP tasks. However,
these models are memory and computation-intensive. Meta-training allows one to
leverage smaller models for few-shot generalization in a domain-general and
task-agnostic manner; however, these methods alone results in models that may
not have sufficient parameterization or knowledge to adapt quickly to a large
variety of tasks. To overcome this issue, we propose meta-training with
demonstration retrieval, where we use a dense passage retriever to retrieve
semantically similar labeled demonstrations to each example for more varied
supervision. By separating external knowledge from model parameters, we can use
meta-training to train parameter-efficient models that generalize well on a
larger variety of tasks. We construct a meta-training set from UnifiedQA and
CrossFit, and propose a demonstration bank based on UnifiedQA tasks. To our
knowledge, our work is the first to combine retrieval with meta-training, to
use DPR models to retrieve demonstrations, and to leverage demonstrations from
many tasks simultaneously, rather than randomly sampling demonstrations from
the training set of the target task. Our approach outperforms a variety of
targeted parameter-efficient and retrieval-augmented few-shot methods on QA,
NLI, and text classification tasks (including SQuAD, QNLI, and TREC). Our
approach can be meta-trained and fine-tuned quickly on a single GPU.
- Abstract(参考訳): 大規模な言語モデルは、数ショットのNLPタスクで印象的な結果を示す。
しかし、これらのモデルはメモリと計算集約である。
メタトレーニングは、ドメイン一般およびタスク非依存の方法で、少数のショット一般化のために小さなモデルを利用することができるが、これらの手法だけでは、幅広いタスクに迅速に適応するのに十分なパラメータ化や知識を持たないモデルが得られる。
そこで我々は,より多彩な監視のために,意味的に類似したラベル付きデモンストレーションを各例に検索するために,高密度なパスレトリバーを用いたメタトレーニングを提案する。
モデルパラメータから外部知識を分離することにより、より多様なタスクでよく一般化されるパラメータ効率モデルのトレーニングにメタトレーニングを使用することができる。
我々はunifiedqaとcrossfitのメタトレーニングセットを構築し,unifiedqaタスクに基づいた実証バンクを提案する。
我々の知る限り、我々の研究は、検索とメタトレーニングを結合し、DPRモデルを使用してデモを検索し、ターゲットタスクのトレーニングセットからランダムにデモをサンプリングするのではなく、多くのタスクからのデモを同時に活用する。
提案手法は,QA,NLI,テキスト分類タスク(SQuAD,QNLI,TRECを含む)において,パラメータ効率と検索強化による多種多様な数ショット法より優れている。
このアプローチは,1つのGPU上で,メタトレーニングと微調整を迅速に行うことができる。
関連論文リスト
- MOWA: Multiple-in-One Image Warping Model [65.73060159073644]
本研究で提案するマルチ・イン・ワン・イメージ・ワープ・モデル(MOWA)について述べる。
領域レベルと画素レベルでの動作推定を両立させることにより,マルチタスク学習の難しさを軽減する。
私たちの知る限り、これは1つのモデルで複数の実用的なワープタスクを解決する最初の作業です。
論文 参考訳(メタデータ) (2024-04-16T16:50:35Z) - Dr.ICL: Demonstration-Retrieved In-context Learning [29.142262267850704]
インコンテキスト学習(ICL)は、LLMを使用するための強力なパラダイムとして、数発のデモでタスクを実行するために大きな言語モデルを教える。
最近の研究では、利用可能なデモのプールからの入力に対して意味論的に類似したデモを取得することで、より良いパフォーマンスが得られることが示唆されている。
この研究は、BM25のような単純な単語オーバーラップ類似度対策でさえ、ランダムに選択された実演よりも優れていることを示すことで、検索ベースのICLアプローチの適用性を拡大する。
論文 参考訳(メタデータ) (2023-05-23T14:55:25Z) - Unified Demonstration Retriever for In-Context Learning [56.06473069923567]
Unified Demonstration Retriever (textbfUDR)は、幅広いタスクのデモを検索する単一のモデルである。
我々は,高品質な候補を見つけるための反復的なマイニング戦略を備えたマルチタスクリストワイド・トレーニング・フレームワークを提案する。
13のタスクファミリーと複数のデータドメインにわたる30以上のタスクの実験は、UDRがベースラインを大幅に上回っていることを示している。
論文 参考訳(メタデータ) (2023-05-07T16:07:11Z) - eP-ALM: Efficient Perceptual Augmentation of Language Models [70.47962271121389]
本稿では,既存モデルの適応性を向上するための直接的な取り組みを提案し,認識を伴う言語モデルの拡張を提案する。
視覚言語タスクに事前訓練されたモデルを適用するための既存のアプローチは、その効率を妨げているいくつかの重要なコンポーネントに依存している。
総パラメータの99%以上を凍結し,1つの直線射影層のみをトレーニングし,1つのトレーニング可能なトークンのみを予測することにより,我々のアプローチ(eP-ALM)は,VQAとCaptioningの他のベースラインよりも有意に優れていることを示す。
論文 参考訳(メタデータ) (2023-03-20T19:20:34Z) - Meta Learning to Bridge Vision and Language Models for Multimodal
Few-Shot Learning [38.37682598345653]
視覚モデルと言語モデルとのギャップを埋めるために,マルチモーダルなメタ学習手法を導入する。
我々は,凍結した大規模視覚と言語モデルを効率的にブリッジするためにメタラーナーとして機能するメタマッパーネットワークを定義する。
我々は,最近提案されたマルチモーダル・スショット・ベンチマークに対するアプローチを評価し,新しい視覚概念を単語に結合する速度を計測した。
論文 参考訳(メタデータ) (2023-02-28T17:46:18Z) - ZhichunRoad at Amazon KDD Cup 2022: MultiTask Pre-Training for
E-Commerce Product Search [4.220439000486713]
検索結果の質を向上させるために,頑健な多言語モデルを提案する。
事前学習の段階では、mlmタスク、分類タスク、コントラスト学習タスクを採用する。
微調整段階では、自信ある学習、指数的移動平均法(EMA)、対人訓練(FGM)、正規化ドロップアウト戦略(R-Drop)を用いる。
論文 参考訳(メタデータ) (2023-01-31T07:31:34Z) - Multi-Modal Few-Shot Temporal Action Detection [157.96194484236483]
Few-shot (FS) と Zero-shot (ZS) の学習は、時間的行動検出を新しいクラスに拡張するための2つの異なるアプローチである。
我々は、FS-TADとZS-TADの結婚として考えられるMMFS (Multi-modality few-shot) TAD問題を導入する。
論文 参考訳(メタデータ) (2022-11-27T18:13:05Z) - SUPERB-SG: Enhanced Speech processing Universal PERformance Benchmark
for Semantic and Generative Capabilities [76.97949110580703]
各種音声タスクの事前学習モデルを評価するための新しいベンチマークであるSUPERB-SGを紹介する。
データドメインのシフトの下で、事前訓練されたモデルによって学習された表現の堅牢性をテストするために、軽量な方法論を使用します。
また,SUPERB-SGのタスク多様性とタスク監督の限定が,モデル表現の一般化性を評価する効果的な方法であることを示す。
論文 参考訳(メタデータ) (2022-03-14T04:26:40Z) - Grad2Task: Improved Few-shot Text Classification Using Gradients for
Task Representation [24.488427641442694]
本稿では,数ショットのテキスト分類のための条件付きニューラルプロセスに基づく新しいアプローチを提案する。
私たちのキーとなるアイデアは、ベースモデルからの勾配情報を使って各タスクを表現することです。
我々のアプローチは、従来の微調整、シーケンシャルトランスファーラーニング、そして最先端のメタラーニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2022-01-27T15:29:30Z) - MetaICL: Learning to Learn In Context [87.23056864536613]
そこで我々は,メタICLというメタトレーニングフレームワークを紹介した。このフレームワークでは,事前学習された言語モデルが,大量のトレーニングタスクに対してコンテキスト内学習を行うように調整されている。
その結果,MetaICLは,目標タスクトレーニングデータに対して完全に微調整されたモデルの性能にアプローチ(時には打ち負かす)し,ほぼ8倍のパラメータを持つモデルよりも優れた性能を示すことがわかった。
論文 参考訳(メタデータ) (2021-10-29T17:42:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。