論文の概要: Decoupling Knowledge from Memorization: Retrieval-augmented Prompt
Learning
- arxiv url: http://arxiv.org/abs/2205.14704v1
- Date: Sun, 29 May 2022 16:07:30 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-31 16:18:58.142477
- Title: Decoupling Knowledge from Memorization: Retrieval-augmented Prompt
Learning
- Title(参考訳): 記憶から知識を分離する: 検索による即興学習
- Authors: Xiang Chen, Lei Li, Ningyu Zhang, Xiaozhuan Liang, Shumin Deng,
Chuanqi Tan, Fei Huang, Luo Si, Huajun Chen
- Abstract要約: RetroPromptは、数ショットとゼロショットの両方で、より良いパフォーマンスを得ることができる。
提案したRetroPromptは、新しいデータセットでより優れた一般化能力を得ることができる。
- 参考スコア(独自算出の注目度): 87.81535540843086
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Prompt learning approaches have made waves in natural language processing by
inducing better few-shot performance while they still follow a parametric-based
learning paradigm; the oblivion and rote memorization problems in learning may
encounter unstable generalization issues. Specifically, vanilla prompt learning
may struggle to utilize atypical instances by rote during fully-supervised
training or overfit shallow patterns with low-shot data. To alleviate such
limitations, we develop RetroPrompt with the motivation of decoupling knowledge
from memorization to help the model strike a balance between generalization and
memorization. In contrast with vanilla prompt learning, RetroPrompt constructs
an open-book knowledge-store from training instances and implements a retrieval
mechanism during the process of input, training and inference, thus equipping
the model with the ability to retrieve related contexts from the training
corpus as cues for enhancement. Extensive experiments demonstrate that
RetroPrompt can obtain better performance in both few-shot and zero-shot
settings. Besides, we further illustrate that our proposed RetroPrompt can
yield better generalization abilities with new datasets. Detailed analysis of
memorization indeed reveals RetroPrompt can reduce the reliance of language
models on memorization; thus, improving generalization for downstream tasks.
- Abstract(参考訳): 素早い学習アプローチは、パラメトリックベースの学習パラダイムに従っている間、より優れた数ショットのパフォーマンスを誘導することで、自然言語処理に波を巻き起こしている。
特に、バニラ・プロンプト・ラーニングは、完全に教師されたトレーニングや、低ショットデータによる浅層パターンの過剰適合において、ロートによる非定型インスタンスの利用に苦労する可能性がある。
このような制約を緩和するため、モデルが一般化と記憶のバランスをとるのを助けるために、記憶から知識を分離する動機を持つレトロプロンプトを開発した。
バニラの素早い学習とは対照的に、RetroPromptはトレーニングインスタンスからオープンブックの知識ストアを構築し、入力、トレーニング、推論のプロセス中に検索メカニズムを実装し、トレーニングコーパスから関連するコンテキストを抽出する機能を付加して強化の手がかりとする。
大規模な実験では、RetroPromptは、数ショットとゼロショットの両方でパフォーマンスが向上することを示した。
さらに,提案するretropromptは,新たなデータセットによって,より優れた一般化能力が得られることを示す。
メモリ化の詳細な分析により、RetroPromptはメモリ化における言語モデルへの依存を減らすことができ、下流タスクの一般化を改善することができる。
関連論文リスト
- Detecting, Explaining, and Mitigating Memorization in Diffusion Models [49.438362005962375]
そこで本研究では,テキスト条件予測の大きさを検査することで,暗黙のプロンプトを検出する方法を提案する。
提案手法はサンプリングアルゴリズムを中断することなくシームレスに統合し,第1世代でも高い精度を実現する。
検出戦略に基づいて,個々の単語やトークンの記憶への寄与を示す説明可能なアプローチを提示する。
論文 参考訳(メタデータ) (2024-07-31T16:13:29Z) - Unintended Memorization in Large ASR Models, and How to Mitigate It [16.047859326721046]
大規模非回帰型自動音声認識(ASR)モデルにおける記憶の監査は困難である。
計算オーバーヘッドを余分に必要とせずに,大規模ASRモデルの記憶量を測定するための簡易な監査手法を設計する。
大規模分散トレーニングでは、各計算コアの平均勾配をクリップすることで、中立的なモデル品質と計算コストが維持されることを示す。
論文 参考訳(メタデータ) (2023-10-18T06:45:49Z) - KnowPrefix-Tuning: A Two-Stage Prefix-Tuning Framework for
Knowledge-Grounded Dialogue Generation [37.36605012674462]
既存の知識基底型会話システムは、典型的には検索・仮説生成方式で応答を生成する。
本稿では,事前知識を軽量な知識接頭辞に注入することにより,検索プロセスをバイパスする2段階のチューニングフレームワークを提案する。
KnowPrefix-Tuningは、微調整や他の軽量チューニングアプローチよりも優れています。
論文 参考訳(メタデータ) (2023-06-27T12:38:49Z) - Detachedly Learn a Classifier for Class-Incremental Learning [11.865788374587734]
本稿では,バニラ体験リプレイ(ER)の失敗は,従来のタスクの不要な再学習と,現在のタスクと以前のタスクとを区別する能力の欠如が原因であることを示す。
本稿では,新しいリプレイ戦略・タスク認識体験リプレイを提案する。
実験の結果,本手法は最先端の手法よりも優れていた。
論文 参考訳(メタデータ) (2023-02-23T01:35:44Z) - Preventing Verbatim Memorization in Language Models Gives a False Sense
of Privacy [91.98116450958331]
我々は、動詞の暗記の定義があまりに制限的であり、より微妙な暗記の形式を捉えることができないと論じる。
具体的には、全ての動詞の暗記を完全に防止する効率的な防御を設計し、実装する。
我々は、潜在的な代替定義について議論し、なぜ記憶の定義がニューラルネットワークモデルにとって難しいが決定的なオープンな問題であるのかを論じる。
論文 参考訳(メタデータ) (2022-10-31T17:57:55Z) - Relation Extraction as Open-book Examination: Retrieval-enhanced Prompt
Tuning [109.7767515627765]
本稿では,関係抽出のための新たな半パラメトリックなプロンプトチューニング手法を提案する。
我々のモデルは、トレーニング中に重みに格納された知識を通して関係を推測する。
本手法は,標準的な教師付き設定と少数ショット設定の両方で最先端を実現することができる。
論文 参考訳(メタデータ) (2022-05-04T23:38:37Z) - Counterfactual Memorization in Neural Language Models [91.8747020391287]
様々なNLPタスクで広く使用されている現代のニューラルネットワークモデルは、トレーニングデータからセンシティブな情報を記憶するリスクがある。
言語モデル記憶の以前の研究におけるオープンな疑問は、「一般的な」記憶の除去方法である。
トレーニング中に特定の文書が省略された場合、モデルの予測がどのように変化するかを特徴付ける反事実記憶の概念を定式化する。
論文 参考訳(メタデータ) (2021-12-24T04:20:57Z) - Remembering for the Right Reasons: Explanations Reduce Catastrophic
Forgetting [100.75479161884935]
我々は、RRR(Remembering for the Right Reasons)と呼ばれる新しいトレーニングパラダイムを提案する。
RRRは、各例の視覚モデル説明をバッファに格納し、モデルが予測に「正しい理由」を持つことを保証する。
メモリや正規化ベースのアプローチでRRRを容易に追加できることを示し、その結果、忘れを少なくする。
論文 参考訳(メタデータ) (2020-10-04T10:05:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。