論文の概要: Few-shot Learning with Retrieval Augmented Language Models
- arxiv url: http://arxiv.org/abs/2208.03299v2
- Date: Mon, 8 Aug 2022 15:01:33 GMT
- ステータス: 処理完了
- システム内更新日: 2022-08-09 10:37:51.399626
- Title: Few-shot Learning with Retrieval Augmented Language Models
- Title(参考訳): 検索言語モデルを用いた少数ショット学習
- Authors: Gautier Izacard, Patrick Lewis, Maria Lomeli, Lucas Hosseini, Fabio
Petroni, Timo Schick, Jane Dwivedi-Yu, Armand Joulin, Sebastian Riedel,
Edouard Grave
- Abstract要約: 大規模な言語モデルは、広範囲のタスクにおいて、印象的な数ショットの結果を示しています。
このような結果に知識が鍵となる場合、知識を格納するための膨大なパラメータ数が必要であると考えられる。
我々はAtlasについて紹介する。Atlasは、慎重に設計され、事前訓練された検索言語モデルで、非常に少ないトレーニング例で知識集約的なタスクを学習することができる。
- 参考スコア(独自算出の注目度): 75.63572749426473
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models have shown impressive few-shot results on a wide range
of tasks. However, when knowledge is key for such results, as is the case for
tasks such as question answering and fact checking, massive parameter counts to
store knowledge seem to be needed. Retrieval augmented models are known to
excel at knowledge intensive tasks without the need for as many parameters, but
it is unclear whether they work in few-shot settings. In this work we present
Atlas, a carefully designed and pre-trained retrieval augmented language model
able to learn knowledge intensive tasks with very few training examples. We
perform evaluations on a wide range of tasks, including MMLU, KILT and
NaturalQuestions, and study the impact of the content of the document index,
showing that it can easily be updated. Notably, Atlas reaches over 42% accuracy
on Natural Questions using only 64 examples, outperforming a 540B parameters
model by 3% despite having 50x fewer parameters.
- Abstract(参考訳): 大規模な言語モデルでは、幅広いタスクで印象的な少ない結果が得られている。
しかし、質問応答や事実チェックなどのタスクのように、知識がこのような結果の鍵となる場合、知識を格納するための膨大なパラメータカウントが必要であると考えられる。
検索された拡張モデルは、多くのパラメータを必要とせずに、知識集約的なタスクに精通することが知られているが、数ショット設定で機能するかどうかは不明である。
本研究では,学習例の少ない知識集約型タスクを学習可能な,注意深く設計された事前学習された検索拡張言語モデルであるatlasを提案する。
我々は,MMLU,KILT,NaturalQuestionsなど幅広いタスクについて評価を行い,文書インデックスの内容の影響について検討し,更新が容易であることを示す。
特に、Atlasは64の例でNatural Questionsで42%以上の精度に達し、パラメータが50倍少ないにもかかわらず、540Bのパラメータモデルよりも3%上回っている。
関連論文リスト
- EXnet: Efficient In-context Learning for Data-less Text classification [0.0]
本報告では,実例数に制限を加えることなく,文脈内学習を実現するためのモデルであるEXnetを提案する。
テキスト内学習はタスクの精度を高めるための効果的な手法であり,実例を提供することでタスク間の一般化が促進される,と我々は主張する。
大規模な実験により、我々の最小のモデル(15Mパラメータ)でさえ、いくつかの目に見えない分類タスクや領域に一般化できることが示される。
論文 参考訳(メタデータ) (2023-05-24T01:40:57Z) - Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language
Models [58.42146641102329]
我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。
KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。
知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
論文 参考訳(メタデータ) (2022-10-28T23:18:43Z) - Zero-Shot Learners for Natural Language Understanding via a Unified
Multiple Choice Perspective [26.41585967095811]
ゼロショット学習は、与えられたタスクでモデルをトレーニングすることを目的としており、追加のトレーニングなしで新しい学習タスクに対処できる。
提案手法は、ゼロショット学習を複数選択タスクに変換し、FLANなどの大規模生成モデルで一般的に使用される問題を回避する。
提案手法は,いくつかのベンチマークにおいて最先端の性能を示し,自然言語推論やテキスト分類といったタスクに対して良好な結果をもたらす。
論文 参考訳(メタデータ) (2022-10-16T17:24:06Z) - PaLM: Scaling Language Modeling with Pathways [180.69584031908113]
我々は,パスウェイズ言語モデル PaLM と呼ばれるトランスフォーマー言語モデルを用いて,540ビリオンのパラメータを訓練した。
我々はPathwaysという新しいMLシステムを用いて,6144 TPU v4チップ上でPaLMをトレーニングした。
数百の言語理解および生成ベンチマーク上で、最先端の数発の学習結果を達成し、スケーリングの継続的なメリットを実証する。
論文 参考訳(メタデータ) (2022-04-05T16:11:45Z) - Multitask Prompted Training Enables Zero-Shot Task Generalization [70.12770442071657]
本研究では,一般的な自然言語タスクを人間に読まれる入力形式にマッピングするシステムを開発した。
様々なタスクをカバーしたマルチタスクミックス上に,事前学習したエンコーダ・デコーダモデルを微調整する。
このモデルは、いくつかの標準データセット上で強力なゼロショット性能を達成し、しばしば16倍のサイズのモデルより優れている。
論文 参考訳(メタデータ) (2021-10-15T17:08:57Z) - Knowledge-driven Data Construction for Zero-shot Evaluation in
Commonsense Question Answering [80.60605604261416]
本稿では,共通認識課題にまたがるゼロショット質問応答のための新しいニューラルシンボリック・フレームワークを提案する。
言語モデル、トレーニング体制、知識ソース、データ生成戦略のセットを変えて、タスク間の影響を測定します。
個別の知識グラフは特定のタスクに適しているが、グローバルな知識グラフはさまざまなタスクに対して一貫した利得をもたらす。
論文 参考訳(メタデータ) (2020-11-07T22:52:21Z) - Meta-learning for Few-shot Natural Language Processing: A Survey [10.396506243272158]
Few-shot Natural Language Processing (NLP) は、ラベル付き例のごく一部に付随するNLPタスクを指す。
本稿では,NLP領域,特に少数ショットアプリケーションに焦点をあてる。
メタラーニングを数ショットNLPに適用する際の、より明確な定義、進捗の概要、一般的なデータセットを提供しようとしている。
論文 参考訳(メタデータ) (2020-07-19T06:36:41Z) - Retrieval-Augmented Generation for Knowledge-Intensive NLP Tasks [133.93803565077337]
検索強化生成モデルは、事前訓練されたパラメトリックメモリと非パラメトリックメモリを組み合わせて言語生成を行う。
我々は、RAGモデルが、最先端パラメトリックのみのセク2セックベースラインよりも、より具体的で、多様で、現実的な言語を生成することを示す。
論文 参考訳(メタデータ) (2020-05-22T21:34:34Z) - Knowledge Guided Metric Learning for Few-Shot Text Classification [22.832467388279873]
我々は,人間の知識を模倣する素早い学習に外部知識を導入することを提案する。
人間の知性に触発され,人間の知識を模倣する素早い学習に外部知識を導入することを提案する。
提案手法は,最新の数ショットのテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2020-04-04T10:56:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。