論文の概要: Recognition, recall, and retention of few-shot memories in large
language models
- arxiv url: http://arxiv.org/abs/2303.17557v1
- Date: Thu, 30 Mar 2023 17:26:16 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-31 12:31:33.003497
- Title: Recognition, recall, and retention of few-shot memories in large
language models
- Title(参考訳): 大規模言語モデルにおける数発記憶の認識・記憶・保持
- Authors: A. Emin Orhan
- Abstract要約: 本研究では,大規模言語モデルを用いた単純な認識,リコール,保持実験について検討する。
単一の露光は、モデルがほぼ完全な精度を達成するのに一般的に十分であることがわかった。
高速学習におけるこの驚くべき能力の対極は、正確な記憶がすぐに上書きされることです。
- 参考スコア(独自算出の注目度): 21.067139116005592
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The training of modern large language models (LLMs) takes place in a regime
where most training examples are seen only a few times by the model during the
course of training. What does a model remember about such examples seen only a
few times during training and how long does that memory persist in the face of
continuous training with new examples? Here, we investigate these questions
through simple recognition, recall, and retention experiments with LLMs. In
recognition experiments, we ask if the model can distinguish the seen example
from a novel example; in recall experiments, we ask if the model can correctly
recall the seen example when cued by a part of it; and in retention
experiments, we periodically probe the model's memory for the original examples
as the model is trained continuously with new examples. We find that a single
exposure is generally sufficient for a model to achieve near perfect accuracy
even in very challenging recognition experiments. We estimate that the
recognition performance of even small language models easily exceeds human
recognition performance reported in similar experiments with humans (Shepard,
1967). Achieving near perfect recall takes more exposures, but most models can
do it in just 3 exposures. The flip side of this remarkable capacity for fast
learning is that precise memories are quickly overwritten: recall performance
for the original examples drops steeply over the first 10 training updates with
new examples, followed by a more gradual decline. Even after 100K updates,
however, some of the original examples are still recalled near perfectly. A
qualitatively similar retention pattern has been observed in human long-term
memory retention studies before (Bahrick, 1984). Finally, recognition is much
more robust to interference than recall and memory for natural language
sentences is generally superior to memory for stimuli without structure.
- Abstract(参考訳): 現代の大規模言語モデル(llm)のトレーニングは、トレーニング期間中にモデルによって、ほとんどのトレーニング例がわずか数回しか見られない体制で行われます。
トレーニング中にほんの数回しか見られないような例や、新しい例による継続的トレーニングの面において、そのメモリはいつまで持続するのでしょうか?
本稿では,LLMを用いた簡単な認識,リコール,保持実験を通じて,これらの課題を考察する。
認識実験では、モデルが見た例と新しい例を区別できるかどうかを問う。リコール実験では、モデルの一部にヒントを得た場合、その例を正しく思い出せるか、保持実験では、モデルが新しい例で継続的に訓練されているため、元の例に対するモデルの記憶を定期的に調査する。
非常に困難な認識実験においても,モデルがほぼ完全な精度を達成できるためには,単一の露光が一般的に十分であることがわかった。
ヒトとの類似実験(shepard, 1967)で報告された認識性能は,小言語モデルでも認識性能が人間の認識性能を上回っていると推定した。
ほぼ完全なリコールを達成するにはより多くの露出が必要だが、ほとんどのモデルでは3回の露出で達成できる。
初期の例のリコールパフォーマンスは、新しい例による最初の10のトレーニングアップデートよりも大幅に低下し、さらに徐々に低下します。
しかし、1Kのアップデート後も、元の例のいくつかは依然として完全にリコールされている。
ヒトの長期記憶保持研究(bahrick, 1984)では、質的に類似した保持パターンが観察されている。
最後に、認識は自然言語文の記憶と記憶よりも干渉に対してはるかに頑健であり、構造のない刺激に対する記憶よりも優れている。
関連論文リスト
- Causal Estimation of Memorisation Profiles [58.20086589761273]
言語モデルにおける記憶の理解は、実践的および社会的意味を持つ。
覚書化(英: Memorisation)とは、モデルがそのインスタンスを予測できる能力に対して、あるインスタンスでトレーニングを行うことによる因果的影響である。
本稿では,計量学の差分差分設計に基づく,新しい,原理的,効率的な記憶推定法を提案する。
論文 参考訳(メタデータ) (2024-06-06T17:59:09Z) - Unintended Memorization in Large ASR Models, and How to Mitigate It [16.047859326721046]
大規模非回帰型自動音声認識(ASR)モデルにおける記憶の監査は困難である。
計算オーバーヘッドを余分に必要とせずに,大規模ASRモデルの記憶量を測定するための簡易な監査手法を設計する。
大規模分散トレーニングでは、各計算コアの平均勾配をクリップすることで、中立的なモデル品質と計算コストが維持されることを示す。
論文 参考訳(メタデータ) (2023-10-18T06:45:49Z) - What do larger image classifiers memorise? [64.01325988398838]
トレーニング例は, モデルサイズにまたがって, 予想外の多彩な記憶軌跡を示す。
有効で一般的なモデル圧縮手法である知識蒸留は,記憶を阻害する傾向があり,一般化も改善する。
論文 参考訳(メタデータ) (2023-10-09T01:52:07Z) - Measuring Forgetting of Memorized Training Examples [80.9188503645436]
機械学習モデルは、トレーニングデータ記憶と様々な形態記憶の2つの矛盾する現象を示す。
特定の例では、モデルは特定のトレーニングに過度に適合し、最終的にはプライバシー攻撃の影響を受けやすい。
我々は、決定論的に忘れる例を潜在的な説明として識別し、モデルが時間とともに訓練された例を経験的に忘れないことを示す。
論文 参考訳(メタデータ) (2022-06-30T20:48:26Z) - Can deep learning match the efficiency of human visual long-term memory
in storing object details? [21.067139116005592]
人間は長期記憶に詳細な視覚情報を格納する能力が著しく高い。
本稿では,人間の視覚的長期記憶の効率に,勾配降下による深層学習が適合するかどうかを問う。
論文 参考訳(メタデータ) (2022-04-27T17:00:37Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Chasing the Tail in Monocular 3D Human Reconstruction with Prototype
Memory [98.36233875637168]
本稿では,レアポーズの予測性能を効果的に向上するメモリ拡張ネットワークPM-Netを提案する。
本研究では,1)この学習障害を特定し解析し,2)稀なポーズの予測性能を効果的に向上するメモリ拡張ネットワークPM-Netを提案する。
論文 参考訳(メタデータ) (2020-12-29T12:57:22Z) - Automatic Recall Machines: Internal Replay, Continual Learning and the
Brain [104.38824285741248]
ニューラルネットワークのリプレイには、記憶されたサンプルを使ってシーケンシャルなデータのトレーニングが含まれる。
本研究では,これらの補助サンプルをフライ時に生成する手法を提案する。
代わりに、評価されたモデル自体内の学習したサンプルの暗黙の記憶が利用されます。
論文 参考訳(メタデータ) (2020-06-22T15:07:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。