論文の概要: Pretraining with hierarchical memories: separating long-tail and common knowledge
- arxiv url: http://arxiv.org/abs/2510.02375v1
- Date: Mon, 29 Sep 2025 17:59:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-06 16:35:52.056265
- Title: Pretraining with hierarchical memories: separating long-tail and common knowledge
- Title(参考訳): 階層記憶による事前学習--ロングテールと共通知識の分離
- Authors: Hadi Pouransari, David Grangier, C Thomas, Michael Kirchhof, Oncel Tuzel,
- Abstract要約: 我々は,世界知識を符号化する大規模階層型パラメトリックメモリバンクにアクセスする小型言語モデルを提案する。
事前トレーニングと推論の間、小さなコンテキスト依存のメモリブロックを取得し、それをモデルに追加します。
我々の事前学習は、記憶パラメータに長い世界知識を格納することを学び、一方、小言語モデルは一般的な推論能力を捉えるアンカーとして機能する。
- 参考スコア(独自算出の注目度): 32.22296691842835
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The impressive performance gains of modern language models currently rely on scaling parameters: larger models store more world knowledge and reason better. Yet compressing all world knowledge into parameters is unnecessary, as only a fraction is used per prompt, and impractical for edge devices with limited inference-time memory and compute. We address this shortcoming by a memory-augmented architecture and a pretraining strategy aligned with existing hardware paradigms. We introduce small language models that access large hierarchical parametric memory banks encoding world knowledge. During pretraining and inference, we fetch a small, context-dependent memory block and add it to the model. Our pretraining learns to store long-tail world knowledge in the memory parameters, while the small language model acts as an anchor capturing common knowledge and general reasoning abilities. Through trillion-token-scale experiments, we show significant gains: a 160M-parameters model augmented with an 18M-parameters memory fetched from a 4.6B memory bank obtains comparable performance to a regular model with more than 2x the parameters. Through extensive experiments, we study the optimal type and size of parametric memories in transformers, scaling them to over 21B parameters. We find that our proposed hierarchical feed-forward memories work robustly across transformer architectures, whether added during pretraining or post-hoc.
- Abstract(参考訳): 現代の言語モデルの素晴らしいパフォーマンス向上は、現在、スケールパラメータに依存しています。
しかし、すべての世界の知識をパラメータに圧縮することは不要である。
メモリ拡張アーキテクチャと、既存のハードウェアパラダイムと整合した事前学習戦略による、この欠点に対処する。
我々は,世界知識を符号化する大規模階層型パラメトリックメモリバンクにアクセスする小型言語モデルを提案する。
事前トレーニングと推論の間、小さなコンテキスト依存のメモリブロックを取得し、それをモデルに追加します。
我々の事前学習は、記憶パラメータに長い世界知識を格納することを学び、一方、小さな言語モデルは、共通の知識と一般的な推論能力をキャプチャするアンカーとして機能する。
メモリバンク4.6Bから取得した18Mパラメータのメモリを拡張した160Mパラメータモデルでは、パラメータの2倍以上の正規モデルに匹敵する性能が得られる。
広範にわたる実験を通じて,変圧器におけるパラメトリックメモリの最適型とサイズについて検討し,21B以上のパラメータに拡張した。
提案した階層型フィードフォワードメモリは,事前学習中やポストホック中であっても,トランスフォーマーアーキテクチャ全体にわたって堅牢に動作することがわかった。
関連論文リスト
- Mem-α: Learning Memory Construction via Reinforcement Learning [20.916677456417464]
大きな言語モデル(LLM)エージェントは、限られたコンテキストウィンドウによって制約される。
現在のメモリ拡張エージェントは、メモリ更新のための事前に定義された命令とツールに依存している。
Mem-alphaは、エージェントに複雑なメモリシステムを効果的に管理するように訓練する強化学習フレームワークである。
論文 参考訳(メタデータ) (2025-09-30T08:02:34Z) - Memory Layers at Scale [67.00854080570979]
この研究はメモリ層を概念実証以上のものにし、現代の規模でその有用性を証明している。
ダウンストリームタスクでは、改善されたメモリ層で強化された言語モデルは、予算の2倍以上の高密度モデルよりも優れており、計算とパラメータの両方にマッチする場合の熟練モデルの混合も優れている。
最大128Bのメモリパラメータを持つスケーリング法則を1兆トークンまで事前訓練し,最大8Bパラメータを持つベースモデルと比較した,完全な並列化可能なメモリレイヤの実装を提供する。
論文 参考訳(メタデータ) (2024-12-12T23:56:57Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Knowledge-in-Context: Towards Knowledgeable Semi-Parametric Language
Models [58.42146641102329]
我々は、新しい半パラメトリック言語モデルアーキテクチャ、Knowledge-in-Context(KiC)を開発した。
KiCは知識豊富な外部メモリを備えたパラメトリックテキスト-テキスト言語モデルを提供する。
知識豊富なセミパラメトリック言語モデルとして、KiCは、目に見えないタスクにおいて優れたゼロショットパフォーマンスを達成するために、はるかに小さな部分しか必要としない。
論文 参考訳(メタデータ) (2022-10-28T23:18:43Z) - A Model or 603 Exemplars: Towards Memory-Efficient Class-Incremental
Learning [56.450090618578]
CIL(Class-Incremental Learning)は、この要件を満たすために、限られたメモリサイズでモデルをトレーニングすることを目的としている。
モデルサイズを総予算にカウントし,メモリサイズに整合する手法を比較すると,保存モデルは常に機能しないことを示す。
本稿では,メモリ効率のよい拡張可能なMOdelのための MEMO という,シンプルで効果的なベースラインを提案する。
論文 参考訳(メタデータ) (2022-05-26T08:24:01Z) - Training Language Models with Memory Augmentation [28.4608705738799]
本稿では,メモリ拡張による言語モデル学習のための新しいトレーニング手法を提案する。
当社のアプローチでは、バッチ内のサンプルをアクセス可能なメモリとして直接取り込むトレーニング目標を用いています。
従来のメモリ拡張アプローチよりも大幅に向上したことを示す。
論文 参考訳(メタデータ) (2022-05-25T11:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。