論文の概要: Language Model Memory and Memory Models for Language
- arxiv url: http://arxiv.org/abs/2602.13466v1
- Date: Fri, 13 Feb 2026 21:16:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-17 14:17:28.040889
- Title: Language Model Memory and Memory Models for Language
- Title(参考訳): 言語モデル記憶と言語記憶モデル
- Authors: Benjamin L. Badger,
- Abstract要約: 隠れ層ベクトル埋め込みに入力情報を格納する機械学習モデルの能力について検討する。
言語モデルの埋め込みは通常、データや計算スケールに関係なく、比較的少ない入力情報を含む。
対照的に、入力再生のために訓練されたオートエンコーダの埋め込みは、ほぼ完璧なメモリ形成を可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ability of machine learning models to store input information in hidden layer vector embeddings, analogous to the concept of `memory', is widely employed but not well characterized. We find that language model embeddings typically contain relatively little input information regardless of data and compute scale during training. In contrast, embeddings from autoencoders trained for input regeneration are capable of nearly perfect memory formation. The substitution of memory embeddings for token sequences leads to substantial computational efficiencies, motivating the introduction of a parallelizable encoder-decoder memory model architecture. Upon causal training these models contain information-poor embeddings incapable of arbitrary information access, but by combining causal and information retention objective functions they learn to form and decode information-rich memories. Training can be further streamlined by freezing a high fidelity encoder followed by a curriculum training approach where decoders first learn to process memories and then learn to additionally predict next tokens. We introduce the perspective that next token prediction training alone is poorly suited for accurate memory formation as the objective itself is non-invertible, motivating the use of combined objective functions for models where the entire input is not exposed.
- Abstract(参考訳): 機械学習モデルが入力情報を隠された層ベクトル埋め込みに格納する能力は、「メモリ」の概念に類似しているが、あまり特徴付けられていない。
言語モデルの埋め込みは通常、トレーニング中のデータや計算スケールに関係なく、比較的少ない入力情報を含む。
対照的に、入力再生のために訓練されたオートエンコーダの埋め込みは、ほぼ完璧なメモリ形成を可能にする。
トークンシーケンスへのメモリ埋め込みの置換は、並列化可能なエンコーダ・デコーダメモリモデルアーキテクチャの導入を動機とした、計算効率の大幅な向上につながる。
因果訓練の際、これらのモデルは任意の情報アクセスができないインフォア埋め込みを含むが、因果的および情報保持目的関数を組み合わせることで、情報豊富な記憶の形成と復号化を学ぶ。
トレーニングは、高い忠実度エンコーダを凍結し、次に、デコーダが最初にメモリの処理を学び、次に次のトークンを予測することを学ぶカリキュラムトレーニングアプローチによって、さらに合理化することができる。
我々は、次のトークン予測トレーニングだけでは、目的自体が非可逆であるため、正確なメモリ形成には不適であり、全ての入力が露出しないモデルに対する統合目的関数の使用を動機付けている、という視点を紹介する。
関連論文リスト
- Mem-α: Learning Memory Construction via Reinforcement Learning [20.916677456417464]
大きな言語モデル(LLM)エージェントは、限られたコンテキストウィンドウによって制約される。
現在のメモリ拡張エージェントは、メモリ更新のための事前に定義された命令とツールに依存している。
Mem-alphaは、エージェントに複雑なメモリシステムを効果的に管理するように訓練する強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-09-30T08:02:34Z) - CodeUnlearn: Amortized Zero-Shot Machine Unlearning in Language Models Using Discrete Concept [5.345828824625758]
コードブック機能とスパースオートエンコーダ(SAEs)を用いた新しいアンラーニング手法を提案する。
ボトルネックを利用して、アクティベーション空間を分解し、情報の流れを規制することにより、モデルの性能を無関係なデータに保ちながら、ターゲットとなる情報を効率的に解き放つ。
論文 参考訳(メタデータ) (2024-10-08T10:26:22Z) - Black-box Unsupervised Domain Adaptation with Bi-directional
Atkinson-Shiffrin Memory [59.51934126717572]
Black-box Unsupervised Domain adaptation (UDA)は、トレーニング中にソースデータまたはソースモデルにアクセスすることなく、ターゲットデータのソース予測で学習する。
両方向の記憶機構であるBiMemを提案する。
BiMemは、画像分類、セマンティックセグメンテーション、オブジェクト検出など、さまざまな視覚的タスクに一貫して優れたドメイン適応性能を実現する。
論文 参考訳(メタデータ) (2023-08-25T08:06:48Z) - Retentive or Forgetful? Diving into the Knowledge Memorizing Mechanism
of Language Models [49.39276272693035]
大規模事前学習型言語モデルは、顕著な記憶能力を示している。
プレトレーニングのないバニラニューラルネットワークは、破滅的な忘れ物問題に悩まされていることが長年観察されてきた。
1)バニラ言語モデルは忘れがちである; 2)事前学習は暗黙の言語モデルにつながる; 3)知識の妥当性と多様化は記憶形成に大きな影響を及ぼす。
論文 参考訳(メタデータ) (2023-05-16T03:50:38Z) - Emergent and Predictable Memorization in Large Language Models [23.567027014457775]
メモリ化、あるいはトレーニングデータから全シーケンスを出力する大規模言語モデルの傾向は、安全に言語モデルをデプロイする上で重要な関心事である。
我々は,大規模モデルのフルトレインタイム前にどのシーケンスを記憶するかを,低速トライアルの実行時の記憶挙動を外挿することによって予測する。
モデルとデータ間のメモリ化スコアの分布に関する新たな発見を提供する。
論文 参考訳(メタデータ) (2023-04-21T17:58:31Z) - Small Language Models for Tabular Data [0.0]
分類と回帰の問題に対処する深層表現学習の能力を示す。
小型モデルは様々な関数の近似に十分なキャパシティを持ち、記録分類ベンチマークの精度を実現する。
論文 参考訳(メタデータ) (2022-11-05T16:57:55Z) - A Memory Transformer Network for Incremental Learning [64.0410375349852]
本研究では,モデルが学習する時間とともに,新しいデータクラスが観察される学習環境であるクラスインクリメンタルラーニングについて検討する。
素直な問題定式化にもかかわらず、クラス増分学習への分類モデルの素直な適用は、これまで見られたクラスの「破滅的な忘れ込み」をもたらす。
これは、過去のデータのサブセットをメモリバンクに保存し、将来のタスクをトレーニングする際の忘れの防止にそれを活用することで、破滅的な忘れの問題を克服するものだ。
論文 参考訳(メタデータ) (2022-10-10T08:27:28Z) - Decoupling Knowledge from Memorization: Retrieval-augmented Prompt
Learning [113.58691755215663]
一般化と記憶のバランスをとるためにRetroPromptを開発した。
バニラプロンプト学習とは対照的に、RetroPromptはトレーニングインスタンスからオープンブックナレッジストアを構築する。
大規模な実験により、RetroPromptは、数ショットとゼロショットの両方で、より良いパフォーマンスを得ることができることが示されている。
論文 参考訳(メタデータ) (2022-05-29T16:07:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。