論文の概要: Learning to Remember, Learn, and Forget in Attention-Based Models
- arxiv url: http://arxiv.org/abs/2602.09075v1
- Date: Mon, 09 Feb 2026 16:09:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.17629
- Title: Learning to Remember, Learn, and Forget in Attention-Based Models
- Title(参考訳): 注意に基づくモデルで覚え、学び、忘れることを学ぶ
- Authors: Djohan Bonnet, Jamie Lohoff, Jan Finkbeiner, Elidona Skhikerujah, Emre Neftci,
- Abstract要約: Palimpsaは、ICLを安定性と塑性のジレンマに対処しなければならない継続的な学習問題とみなす自己注意モデルである。
PalimpsaはMulti-Query Associative Recall(MQAR)ベンチマークとCommonsense Reasoningタスクのベースラインを一貫して上回ります。
- 参考スコア(独自算出の注目度): 7.703787221335791
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In-Context Learning (ICL) in transformers acts as an online associative memory and is believed to underpin their high performance on complex sequence processing tasks. However, in gated linear attention models, this memory has a fixed capacity and is prone to interference, especially for long sequences. We propose Palimpsa, a self-attention model that views ICL as a continual learning problem that must address a stability-plasticity dilemma. Palimpsa uses Bayesian metaplasticity, where the plasticity of each attention state is tied to an importance state grounded by a prior distribution that captures accumulated knowledge. We demonstrate that various gated linear attention models emerge as specific architecture choices and posterior approximations, and that Mamba2 is a special case of Palimpsa where forgetting dominates. This theoretical link enables the transformation of any non-metaplastic model into a metaplastic one, significantly expanding its memory capacity. Our experiments show that Palimpsa consistently outperforms baselines on the Multi-Query Associative Recall (MQAR) benchmark and on Commonsense Reasoning tasks.
- Abstract(参考訳): 変圧器におけるインコンテキスト学習(ICL)は、オンライン連想記憶として機能し、複雑なシーケンス処理タスクにおいて高いパフォーマンスを支えていると考えられている。
しかし、ゲート線形アテンションモデルでは、このメモリは固定容量を持ち、特に長いシーケンスでは干渉しがちである。
本稿では,ICLを安定塑性ジレンマに対処しなければならない連続学習問題とみなす自己注意モデルであるPalimpsaを提案する。
パリンプサはベイズ変塑性を利用しており、それぞれの注意状態の可塑性は、蓄積された知識を捉えた以前の分布によって基礎付けられた重要な状態と結び付けられている。
種々のゲート付き線形アテンションモデルが,特定のアーキテクチャ選択や後部近似として出現し,Mamba2が支配的なPalimpsaの特殊なケースであることを示す。
この理論リンクは、メタプラスティックでないモデルからメタプラスティックモデルへの変換を可能にし、メモリ容量を大幅に拡大する。
実験の結果、PalimpsaはMulti-Query Associative Recall(MQAR)ベンチマークとCommonsense Reasoningタスクのベースラインを一貫して上回っていることがわかった。
関連論文リスト
- LINA: Linear Autoregressive Image Generative Models with Continuous Tokens [56.80443965097921]
連続トークンを持つ自己回帰モデルは、特にテキスト・トゥ・イメージ(T2I)合成において、視覚生成に有望なパラダイムを形成する。
このフレームワーク内での計算効率のよい線形アテンションの設計法について検討する。
LINAは、線形注意に基づくシンプルで計算効率の良いT2Iモデルであり、ユーザ命令から高忠実度1024x1024画像を生成することができる。
論文 参考訳(メタデータ) (2026-01-30T06:44:33Z) - MemMamba: Rethinking Memory Patterns in State Space Model [6.537535831000493]
マンバのような選択的状態空間モデルは O(n) 時間と O(1) 繰り返しの推論で高い効率性を示すが、その長距離メモリは指数関数的に崩壊する。
長文読解時の塩分情報の蒸留・保存方法に着想を得て,MemMambaを提案する。
MemMambaは、長期間のベンチマークで既存のMambaとTransformerよりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-09-28T14:40:58Z) - Lizard: An Efficient Linearization Framework for Large Language Models [113.87302474262798]
プリトレーニングされたトランスフォーマーベース大規模言語モデル(LLM)をサブクワッドアーキテクチャに変換する線形化フレームワークであるLizardを提案する。
Lizardは、モデル品質を保ちながらソフトマックスアテンションを正確に近似するサブクワッドアテンションメカニズムを導入することで、これらの制限に対処する。
5 ショット MMLU ベンチマークにおいて,Lizard は教師モデルの性能のほぼ無作為な回復を実現し,従来の手法よりも 9.4 ~ 24.5 ポイント高い性能を示した。
論文 参考訳(メタデータ) (2025-07-11T21:19:18Z) - Emergence of Primacy and Recency Effect in Mamba: A Mechanistic Point of View [16.8179962093575]
予備効果と回帰効果を行動ツールとして用いた状態空間言語モデルの記憶について検討し、時間とともに情報がどのように保持され忘れられているかを明らかにする。
構造的リコールタスクをMambaアーキテクチャに適用し、入力シーケンスの開始と終了における強い性能を示す、一貫したU字型精度プロファイルを観察する。
論文 参考訳(メタデータ) (2025-06-18T06:02:02Z) - Test-time regression: a unifying framework for designing sequence models with associative memory [24.915262407519876]
シーケンスモデルを理解し、導出するための統一フレームワークを導入する。
我々は、連想的リコールを2段階のプロセス、記憶と検索として形式化し、回帰問題としてキャストする。
我々の研究は、古典的回帰手法によるシーケンスモデリングを橋渡しし、より強力で理論的に原則化されたアーキテクチャを開発するための道を開く。
論文 参考訳(メタデータ) (2025-01-21T18:32:31Z) - MambaLRP: Explaining Selective State Space Sequence Models [18.133138020777295]
選択状態空間列モデル(マンバモデルと呼ばれる)を用いた最近のシーケンスモデリング手法は、関心が高まりつつある。
これらのモデルは、線形時間における長いシーケンスの効率的な処理を可能にし、言語モデリングのような広範囲のアプリケーションで急速に採用されている。
現実のシナリオにおける信頼性の高い利用を促進するためには、透明性を高めることが重要です。
論文 参考訳(メタデータ) (2024-06-11T12:15:47Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバインスパイアされた線形注意(MILA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。