論文の概要: Memorization in In-Context Learning
- arxiv url: http://arxiv.org/abs/2408.11546v2
- Date: Sun, 27 Oct 2024 18:04:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-08 06:11:36.156511
- Title: Memorization in In-Context Learning
- Title(参考訳): インテクスト学習における覚書化
- Authors: Shahriar Golchin, Mihai Surdeanu, Steven Bethard, Eduardo Blanco, Ellen Riloff,
- Abstract要約: In-context Learning (ICL) は,大規模言語モデル(LLM)の性能向上に有効な手法であることが証明されている。
本研究は、ICLが記憶したトレーニングデータをどのように表すかを示し、この記憶とパフォーマンスの相関について検討した最初のものである。
- 参考スコア(独自算出の注目度): 42.218016081867376
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-context learning (ICL) has proven to be an effective strategy for improving the performance of large language models (LLMs) with no additional training. However, the exact mechanism behind this performance improvement remains unclear. This study is the first to show how ICL surfaces memorized training data and to explore the correlation between this memorization and performance on downstream tasks across various ICL regimes: zero-shot, few-shot, and many-shot. Our most notable findings include: (1) ICL significantly surfaces memorization compared to zero-shot learning in most cases; (2) demonstrations, without their labels, are the most effective element in surfacing memorization; (3) ICL improves performance when the surfaced memorization in few-shot regimes reaches a high level (about 40%); and (4) there is a very strong correlation between performance and memorization in ICL when it outperforms zero-shot learning. Overall, our study uncovers memorization as a new factor impacting ICL, raising an important question: to what extent do LLMs truly generalize from demonstrations in ICL, and how much of their success is due to memorization?
- Abstract(参考訳): In-context Learning (ICL) は,大規模言語モデル(LLM)の性能向上に有効な手法であることが証明されている。
しかし、この性能改善の正確なメカニズムは不明である。
この研究は、ICLが記憶されたトレーニングデータをどのように表すのかを初めて示し、この記憶と下流タスク(ゼロショット、少数ショット、多ショット)におけるパフォーマンスの相関について検討した。
ICLは,(1)ゼロショット学習と比較して暗記を顕著に表す,(2)ラベルのない実演は,表向きの暗記において最も有効な要素である,(3)少数ショット状態における表向きの暗記が高水準(約40%)に達すると性能が向上する,(4)ゼロショット学習を上回る場合のパフォーマンスと暗記との間には,非常に強い相関関係がある,といった特徴がある。
全体として、我々の研究はメモリ化をICLに影響を及ぼす新しい要因として明らかにし、重要な疑問を提起している。
関連論文リスト
- Instruction Tuning Vs. In-Context Learning: Revisiting Large Language Models in Few-Shot Computational Social Science [0.1499944454332829]
In-context Learning (ICL) とインストラクションチューニング (IT) を用いた大規模言語モデル (LLM) の分類性能の評価を行った。
ICLは、明示的な勾配更新なしで例から学ぶことで、タスク適応の迅速な代替手段を提供する。
私たちの研究は、CSSタスクを数ショットで処理する上で、ICLの重大な利点を強調しています。
論文 参考訳(メタデータ) (2024-09-23T02:43:08Z) - ICLEval: Evaluating In-Context Learning Ability of Large Language Models [68.7494310749199]
In-Context Learning (ICL) は大規模言語モデル(LLM)の重要な能力であり、相互接続された入力の理解と推論を可能にする。
既存の評価フレームワークは主に言語能力と知識に重点を置いており、しばしばICL能力の評価を見落としている。
LLMのICL能力を評価するためにICLEvalベンチマークを導入する。
論文 参考訳(メタデータ) (2024-06-21T08:06:10Z) - Investigating the Pre-Training Dynamics of In-Context Learning: Task Recognition vs. Task Learning [99.05401042153214]
In-context Learning(ICL)は、タスク認識(TR)とタスク学習(TL)の2つの主要な能力に起因する可能性がある。
ICLの出現の事前学習のダイナミクスを調べることで、第一歩を踏み出す。
そこで本研究では,この2つの機能を推論時によりよく統合するための,シンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-06-20T06:37:47Z) - Many-Shot In-Context Learning [58.395589302800566]
大規模言語モデル (LLMs) は、文脈内学習 (ICL) において優れている
我々は、多種多様な生成的および識別的タスクにおける顕著なパフォーマンス向上を観察する。
少数ショット学習とは異なり、多ショット学習は事前学習されたバイアスをオーバーライドするのに効果的である。
論文 参考訳(メタデータ) (2024-04-17T02:49:26Z) - DimCL: Dimensional Contrastive Learning For Improving Self-Supervised
Learning [40.25324481491231]
本稿では,バッチ方向に沿ってではなく,次元方向に沿ってコントラスト学習を行う戦略を提案する。
DimCLは機能の多様性を高めることを目的としており、以前のSSLフレームワークのレギュレータとして機能する。
論文 参考訳(メタデータ) (2023-09-21T05:12:55Z) - Investigating the Learning Behaviour of In-context Learning: A
Comparison with Supervised Learning [67.25698169440818]
大規模言語モデル(LLM)は、文脈内学習(ICL)において顕著な能力を示している。
我々は、ICLと教師あり学習(SL)を通して、同じ実演例で同じLLMを訓練し、ラベル摂動下での性能を調査する。
まず、特に大規模言語モデルにおいて、ゴールドラベルがダウンストリーム・イン・コンテクストのパフォーマンスに大きな影響を与えることを発見した。
第2に、SLと比較すると、ICLはSLよりもラベル摂動に敏感で、モデルサイズが大きくなるにつれて徐々にSLに匹敵する性能が得られることが実証的に示される。
論文 参考訳(メタデータ) (2023-07-28T09:03:19Z) - In-Context Learning Learns Label Relationships but Is Not Conventional
Learning [60.891931501449726]
大規模言語モデルの文脈内学習(ICL)能力について、現時点では合意が得られていない。
ICLがラベル情報をどのように活用するかという新たな洞察を提供し、機能と制限の両方を明らかにします。
実験の結果, ICLの予測はコンテキスト内ラベルにほぼ常に依存しており, ICLはコンテキスト内における真に新しいタスクを学習できることがわかった。
論文 参考訳(メタデータ) (2023-07-23T16:54:41Z) - Decoupled Contrastive Learning [23.25775900388382]
我々は,広く使用されているクロスエントロピー(InfoNCE)損失における顕著な負陽性結合(NPC)効果を同定した。
NPC効果を適切に処理することにより、非結合型コントラスト学習(DCL)目標関数に到達する。
われわれのアプローチは、200時間以内のバッチサイズ256を使用して6.9%のImageNet top-1精度を実現し、ベースラインのSimCLRを5.1%上回った。
論文 参考訳(メタデータ) (2021-10-13T16:38:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。