論文の概要: Learning to Forget Attention: Memory Consolidation for Adaptive Compute Reduction
- arxiv url: http://arxiv.org/abs/2602.12204v1
- Date: Thu, 12 Feb 2026 17:40:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-13 21:07:25.96194
- Title: Learning to Forget Attention: Memory Consolidation for Adaptive Compute Reduction
- Title(参考訳): 注意を忘れる学習: 適応型計算量削減のためのメモリ統合
- Authors: Ibne Farabi Shihab, Sanjeda Akter, Anuj Sharma,
- Abstract要約: 状態空間モデルと注意を結合したハイブリッドアーキテクチャは、高い効率品質のトレードオフを実現している。
テキストbf88%の注意操作は、モデルの隠れた状態から既に予測可能な情報を取得する。
textbfours (textbfConsolidation-based textbfRouting for textbfAdaptive textbfMemory) は生物学的にインスパイアされたメモリ統合機構で、エピソード検索をパラメトリックセマンティックメモリに徐々に蒸留する。
- 参考スコア(独自算出の注目度): 6.908972852063454
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Hybrid architectures combining state-space models with attention have achieved strong efficiency-quality tradeoffs, yet existing approaches either apply attention uniformly or learn static sparse patterns. This misses a key opportunity: \emph{attention demand should decrease over time as recurring patterns become familiar}. We present a surprising finding from analyzing GPT-2 models: \textbf{88\%} of attention operations retrieve information already predictable from the model's hidden state, and this redundancy does \emph{not} decrease during training. Motivated by this observation, we introduce \textbf{\ours{}} (\textbf{C}onsolidation-based \textbf{R}outing for \textbf{A}daptive \textbf{M}emory), a biologically inspired memory consolidation mechanism that gradually distills episodic retrievals into parametric semantic memory. Unlike prior sparse attention methods, \ours{} exhibits \emph{decreasing attention utilization} over training, achieving a \textbf{37.8$\times$} reduction through a sharp phase transition at approximately 3K steps. We prove that this capability is \emph{impossible} without consolidation: any static routing scheme requires $Ω(f \cdot n)$ attention for tasks with recurring patterns of frequency $f$. On our proposed SRCD benchmark, \ours{} achieves \textbf{100\% retrieval accuracy} at 1.6\% attention compute (vs.\ 68\% for baselines), and consolidated patterns transfer to unseen tasks with \textbf{48--52\%} attention reduction without retraining. Remarkably, the learned consolidation dynamics quantitatively match human episodic-to-semantic memory transition curves from cognitive psychology ($γ= 0.43$ vs.\ $γ_{\text{human}} \approx 0.4$--$0.5$). Code and benchmarks are available at [anonymized].
- Abstract(参考訳): 状態空間モデルと注意を結合したハイブリッドアーキテクチャは、高い効率品質のトレードオフを実現しているが、既存のアプローチは注意を均一に適用するか、静的スパースパターンを学習する。
これは重要な機会を逃している: \emph{attention demand should reduce times as repeating pattern become familiar}。
本稿では,GPT-2 モデルの解析から得られた驚くべき発見について述べる。 注意操作の textbf{88\%} は,モデルの隠れ状態から予測可能な情報を抽出し,この冗長性はトレーニング中に \emph{not} を減少させる。
本研究の目的は, 生物学的にインスピレーションを受けたメモリ統合機構である \textbf{A}daptive \textbf{M}emory に対する \textbf{\ours{}} (\textbf{C}onsolidation-based \textbf{R}outing を導入することである。
従来のスパース・アテンション・メソッドとは異なり、 \ours{} はトレーニングに先立って \emph{decreasing attention utilization} を示し、約3K ステップで鋭い位相遷移によって \textbf{37.8$\times$} 還元を達成する。
任意の静的ルーティングスキームは、周波数$f$の繰り返しパターンを持つタスクに対して$Ω(f \cdot n)$の注意を必要とする。
提案したSRCDベンチマークでは, 注意計算(vs)において, \ours{} は \textbf{100\% の精度を 1.6\% で達成した。
68\%(ベースラインの場合)、および統合されたパターンは、再トレーニングすることなく、‘textbf{48--52\%}アテンションリダクションによる未確認タスクに転送される。
興味深いことに、学習された統合力学は認知心理学(γ=0.43ドル対)のヒトのエピソード-セマンティック記憶遷移曲線と定量的に一致している。
\$γ_{\text{human}} \approx 0.4$--$0.5$)。
コードとベンチマークは匿名化されている.
関連論文リスト
- Echoes as Anchors: Probabilistic Costs and Attention Refocusing in LLM Reasoning [25.852162778115808]
大規模推論モデル(LRM)におけるテスト時間計算割り当ては広く使われ、数学的問題解決、コード合成、計画に応用されている。
本稿では,EmphEcho of Prompt (EOP) を前装式計算整形機構として用いて,モデルが再帰する傾向を分析し,活用する。
論文 参考訳(メタデータ) (2026-02-06T10:53:26Z) - Process-Tensor Tomography of SGD: Measuring Non-Markovian Memory via Back-Flow of Distinguishability [1.078600700827543]
我々は,識別可能性のオンフバックフローに基づく学習記憶のモデルに依存しない簡易な目撃者を構築した。
高い運動量下での増幅, よりマイクロステップで, 厳密なブートストラップ信頼区間による一貫した正の逆流を観察した。
我々はこれを、実用的なSGDがマルコフの理想化から逸脱する、原則化された診断および実証的な証拠として位置付ける。
論文 参考訳(メタデータ) (2026-01-23T09:03:25Z) - Punctuation-aware Hybrid Trainable Sparse Attention for Large Language Models [44.28116882776357]
textbfPunctuation-aware textbfHybrid textbfSparse textbfAttention textbf(PHSA)を提案する。
具体的には,大域的セマンティック表現と句読点付き境界特徴を融合させ,コアセマンティック構造を保ちながら,計算オーバーヘッドをほとんど含まない二重ブランチアグリゲーション機構を設計する。
論文 参考訳(メタデータ) (2026-01-06T08:47:16Z) - GatedFWA: Linear Flash Windowed Attention with Gated Associative Memory [7.180426235884756]
GatedFWAはメモリアンダーラインGated(アンダーラインFlash)アンダーラインWindowedアンダーラインAttentionメカニズムである。
メモリ更新を安定させ、グラデーションフローを制御可能にする。
言語モデリングベンチマークでは、GatedFWAは、無視できないオーバーヘッドで競合スループットを提供する。
論文 参考訳(メタデータ) (2025-12-08T18:11:06Z) - QuantSparse: Comprehensively Compressing Video Diffusion Transformer with Model Quantization and Attention Sparsification [67.15451442018258]
拡散変換器は素晴らしいビデオ生成能力を示すが、その計算とメモリの禁止コストは実際の展開を妨げる。
モデル量子化とアテンションスパシフィケーションは圧縮に有望な2つの方向であるが、それぞれがアグレッシブ圧縮の下で深刻な性能劣化を被っている。
モデル量子化と注意散布を統合した統合フレームワークである textbfQuantSparse を提案する。
論文 参考訳(メタデータ) (2025-09-28T06:49:44Z) - CODA: Repurposing Continuous VAEs for Discrete Tokenization [31.932323809073477]
textbfCODA(textbfCOntinuous-to-textbfDiscrete textbfAdaptation)は、圧縮と離散化を分離するフレームワークである。
提案手法は,ImageNet 256$times$256ベンチマークにおいて,$mathbf0.43$と$mathbf1.34$を8倍,$16倍の圧縮で,100%のコードブック利用と注目すべき再構成FID(rFID)を実現している。
論文 参考訳(メタデータ) (2025-03-22T12:59:00Z) - Vision Transformer with Sparse Scan Prior [24.78780746169092]
textbfSparse textbfScan textbfSelf-textbfAttention mechanism(rmS3rmA$)を提案する。
このメカニズムはトークンごとに一連のAnchor of Interestをプリ定義し、局所的な注意を使ってこれらのアンカー周辺の空間情報を効率的にモデル化する。
rmS3rmA$で構築すると、 textbfSparse textbfScan textbfVisionを導入します。
論文 参考訳(メタデータ) (2024-05-22T04:34:36Z) - Attention Map Guided Transformer Pruning for Edge Device [98.42178656762114]
視覚トランスフォーマー (ViT) は, 全体的かつ隠蔽された人物再識別 (Re-ID) タスクにおいて, 有望な成功を収めた。
本稿では、冗長なトークンとヘッドの両方を除去する新しいアテンションマップガイド(AMG)トランスフォーマープルーニング法を提案する。
Occluded DukeMTMC と Market-1501 に関する総合的な実験により,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2023-04-04T01:51:53Z) - Unsupervised Semantic Segmentation by Distilling Feature Correspondences [94.73675308961944]
教師なしセマンティックセグメンテーション(unsupervised semantic segmentation)は、アノテーションなしで画像コーパス内の意味論的意味のあるカテゴリを発見し、ローカライズすることを目的としている。
STEGOは、教師なし特徴を高品質な個別のセマンティックラベルに蒸留する新しいフレームワークである。
STEGOは、CocoStuffとCityscapesの両課題において、先行技術よりも大幅に改善されている。
論文 参考訳(メタデータ) (2022-03-16T06:08:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。