論文の概要: Locas: Your Models are Principled Initializers of Locally-Supported Parametric Memories
- arxiv url: http://arxiv.org/abs/2602.05085v1
- Date: Wed, 04 Feb 2026 22:09:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.642013
- Title: Locas: Your Models are Principled Initializers of Locally-Supported Parametric Memories
- Title(参考訳): Locas:あなたのモデルは、ローカルにレポートされたパラメトリック記憶の原理的初期化子です
- Authors: Sidi Lu, Zhenwen Liang, Dongyang Ma, Yan Wang, Haitao Mi, Dong Yu,
- Abstract要約: Locasは局所的なパラメトリックメモリであり、現代のトランスフォーマーにおいてFFNブロックの設計を共有する。
このような低ランクサイドウェイFFNスタイルの記憶の適切な初期化は、迅速な収束、一般化の改善、破滅的な予防に不可欠である。
- 参考スコア(独自算出の注目度): 44.46300411842271
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we aim to bridge test-time-training with a new type of parametric memory that can be flexibly offloaded from or merged into model parameters. We present Locas, a Locally-Supported parametric memory that shares the design of FFN blocks in modern transformers, allowing it to be flexibly permanentized into the model parameters while supporting efficient continual learning. We discuss two major variants of Locas: one with a conventional two-layer MLP design that has a clearer theoretical guarantee; the other one shares the same GLU-FFN structure with SOTA LLMs, and can be easily attached to existing models for both parameter-efficient and computation-efficient continual learning. Crucially, we show that proper initialization of such low-rank sideway-FFN-style memories -- performed in a principled way by reusing model parameters, activations and/or gradients -- is essential for fast convergence, improved generalization, and catastrophic forgetting prevention. We validate the proposed memory mechanism on the PG-19 whole-book language modeling and LoCoMo long-context dialogue question answering tasks. With only 0.02\% additional parameters in the lowest case, Locas-GLU is capable of storing the information from past context while maintaining a much smaller context window. In addition, we also test the model's general capability loss after memorizing the whole book with Locas, through comparative MMLU evaluation. Results show the promising ability of Locas to permanentize past context into parametric knowledge with minimized catastrophic forgetting of the model's existing internal knowledge.
- Abstract(参考訳): 本稿では,新しいタイプのパラメトリックメモリでテスト時間トレーニングをブリッジし,フレキシブルにオフロードしたり,モデルパラメータにマージしたりすることを目的としている。
局所的にサポーティングされたパラメトリックメモリであるLocasは、現代のトランスフォーマーにおけるFFNブロックの設計を共有することで、効率的な連続学習をサポートしながら、モデルパラメータに柔軟に永続化することができる。
理論的な保証がより明確である従来の2層型MLP設計と、SOTA LLMと同一のGLU-FFN構造を共有しており、パラメータ効率と計算効率の両面で既存のモデルに容易に取り付けることができる。
重要なことは、モデルパラメータ、アクティベーション、および/または勾配を再利用することで、原則的に実行される、そのような低ランクなサイドウェイFFNスタイルのメモリの適切な初期化が、高速収束、一般化、破滅的な忘れの防止に不可欠であることを示す。
提案したメモリメカニズムをPG-19全書言語モデリングとLoCoMo長文対話質問応答タスクで検証する。
最も低いケースでは0.02\%の追加パラメータしか持たないため、Locas-GLUは、はるかに小さなコンテキストウィンドウを維持しながら、過去のコンテキストから情報を格納することができる。
また,本書全体を Locas で記憶した後,MMLU 比較評価により,モデル全体の機能損失を検証した。
その結果、ロカスが過去の文脈をパラメトリックな知識に永久化できる可能性を示し、モデルの既存の内部知識の破滅的な忘れを最小化する。
関連論文リスト
- Optimal Sparsity of Mixture-of-Experts Language Models for Reasoning Tasks [17.067788440109137]
現在、Mixture-of-Experts (MoE)モデルは最先端システムでは標準となっている。
記憶能力と推論能力の2つの異なる能力体制にMoEがどのような影響を及ぼすかを検討する。
論文 参考訳(メタデータ) (2025-08-26T04:31:28Z) - LatentLLM: Attention-Aware Joint Tensor Compression [50.33925662486034]
大規模言語モデル(LLM)と大規模マルチモーダルモデル(LMM)は膨大な計算量とメモリ資源を必要とする。
本稿では,LLM/LMMを低次元潜在構造に変換するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-23T22:39:54Z) - Self-Updatable Large Language Models by Integrating Context into Model Parameters [21.742149718161716]
周囲のオブジェクトとのインタラクションのような小規模なエクスペリエンスは、大規模な言語モデルに頻繁に統合する必要があります。
現在の手法では、連続学習、モデル編集、知識蒸留技術を用いてモデルパラメータに経験を組み込む。
モデルパラメータに直接経験を組み込むSELF-PARAMを提案する。
論文 参考訳(メタデータ) (2024-10-01T08:18:17Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。