論文の概要: Emergence of Primacy and Recency Effect in Mamba: A Mechanistic Point of View
- arxiv url: http://arxiv.org/abs/2506.15156v1
- Date: Wed, 18 Jun 2025 06:02:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-19 19:35:51.554874
- Title: Emergence of Primacy and Recency Effect in Mamba: A Mechanistic Point of View
- Title(参考訳): マンバにおけるプライマリシーの出現と頻度効果--機械的視点から
- Authors: Muhammad Cendekia Airlangga, Hilal AlQuabeh, Munachiso S Nwadike, Kentaro Inui,
- Abstract要約: 予備効果と回帰効果を行動ツールとして用いた状態空間言語モデルの記憶について検討し、時間とともに情報がどのように保持され忘れられているかを明らかにする。
構造的リコールタスクをMambaアーキテクチャに適用し、入力シーケンスの開始と終了における強い性能を示す、一貫したU字型精度プロファイルを観察する。
- 参考スコア(独自算出の注目度): 16.8179962093575
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We study memory in state-space language models using primacy and recency effects as behavioral tools to uncover how information is retained and forgotten over time. Applying structured recall tasks to the Mamba architecture, we observe a consistent U-shaped accuracy profile, indicating strong performance at the beginning and end of input sequences. We identify three mechanisms that give rise to this pattern. First, long-term memory is supported by a sparse subset of channels within the model's selective state space block, which persistently encode early input tokens and are causally linked to primacy effects. Second, short-term memory is governed by delta-modulated recurrence: recent inputs receive more weight due to exponential decay, but this recency advantage collapses when distractor items are introduced, revealing a clear limit to memory depth. Third, we find that memory allocation is dynamically modulated by semantic regularity: repeated relations in the input sequence shift the delta gating behavior, increasing the tendency to forget intermediate items. We validate these findings via targeted ablations and input perturbations on two large-scale Mamba-based language models: one with 1.4B and another with 7B parameters.
- Abstract(参考訳): 予備効果と回帰効果を行動ツールとして用いた状態空間言語モデルの記憶について検討し、時間とともに情報がどのように保持され忘れられているかを明らかにする。
構造的リコールタスクをMambaアーキテクチャに適用し、入力シーケンスの開始と終了における強い性能を示す、一貫したU字型精度プロファイルを観察する。
このパターンを生じる3つのメカニズムを同定する。
まず、長期記憶はモデルの選択状態空間ブロック内のチャンネルのスパースサブセットによってサポートされ、初期入力トークンを永続的にエンコードし、プライマリ効果に因果的に関連付けられている。
第二に、短期記憶はデルタ変調繰り返しによって制御される:最近の入力は指数関数的崩壊によりより重み付けされるが、この遅延優位性はイントラクタアイテムが導入されたときに崩壊し、メモリ深度に明確な制限が生じる。
第3に、メモリ割り当てはセマンティックな規則性によって動的に変調され、入力シーケンスにおける繰り返しの関係はデルタゲーティングの振る舞いをシフトさせ、中間項目を忘れる傾向を増す。
提案手法は,2つの大規模マンバ言語モデル(1.4B,7Bパラメータ)に対して,目標アブレーションと入力摂動を用いて検証した。
関連論文リスト
- Gated Attention for Large Language Models: Non-linearity, Sparsity, and Attention-Sink-Free [81.65559031466452]
我々は、ゲーティング強化ソフトマックスアテンションの変種を調べる実験を行った。
SDPA(Scaled Dot-Product Attention)後の頭部特異的シグモイドゲートを簡易に修正することで,性能が向上することがわかった。
論文 参考訳(メタデータ) (2025-05-10T17:15:49Z) - MsMemoryGAN: A Multi-scale Memory GAN for Palm-vein Adversarial Purification [40.80205521005344]
本稿では,MsMemoryGANという新しい防衛モデルを提案する。
MsMemoryGANは、メモリに記録された通常のパターンのより少ない原型要素を使用することで、入力を再構築することを学ぶ。
本手法では, 血管分類器が高い認識精度を達成できるため, 様々な逆方向の摂動を除去する。
論文 参考訳(メタデータ) (2024-08-20T09:46:30Z) - CItruS: Chunked Instruction-aware State Eviction for Long Sequence Modeling [52.404072802235234]
本稿では,下流タスクに有用な注目度を隠蔽状態の消去プロセスに統合する新しいモデリング手法であるChunked Instruction-Aware State Eviction(CItruS)を紹介する。
トレーニング不要な手法は,メモリ予算が同じ条件下で,複数の強いベースライン上での長いシーケンス理解および検索タスクにおいて,優れた性能を示す。
論文 参考訳(メタデータ) (2024-06-17T18:34:58Z) - Simple linear attention language models balance the recall-throughput tradeoff [60.06020449520365]
線形およびすべり窓の注意を結合したシンプルなアーキテクチャであるBASEDを提案する。
我々は、最大1.3bパラメータの言語モデルをトレーニングし、BASEDがパープレキシティにおいて最強のサブクワッドラティックモデルと一致し、実世界のリコール集約タスクにおいて6.22の精度ポイントでそれらのモデルを上回っていることを示す。
論文 参考訳(メタデータ) (2024-02-28T19:28:27Z) - Recurrent Action Transformer with Memory [39.58317527488534]
本稿では,情報保持を規制するリカレントメモリ機構を組み込んだ新しいモデルアーキテクチャを提案する。
メモリ集約環境(ViZDoom-Two-Colors, T-Maze, Memory Maze, Minigrid-Memory)、古典的アタリゲーム、MuJoCo制御環境について実験を行った。
その結果、メモリの使用は、古典的な環境における結果の維持や改善をしながら、メモリ集約環境におけるパフォーマンスを著しく向上させることができることがわかった。
論文 参考訳(メタデータ) (2023-06-15T19:29:08Z) - Multi-level Memory-augmented Appearance-Motion Correspondence Framework
for Video Anomaly Detection [1.9511777443446219]
マルチレベルメモリ拡張外見対応フレームワークを提案する。
外観と動きの潜在的対応は、外見と動きのセマンティックスアライメントとセマンティックス代替トレーニングによって探索される。
我々のフレームワークは最先端の手法より優れており、UCSD Ped2、CUHK Avenue、ShanghaiTechのデータセットで99.6%、93.8%、76.3%のAUCを達成した。
論文 参考訳(メタデータ) (2023-03-09T08:43:06Z) - LaMemo: Language Modeling with Look-Ahead Memory [50.6248714811912]
右側トークンへの漸進的参加により再帰記憶を向上させるLook-Ahead Memory(LaMemo)を提案する。
LaMemoは、メモリ長に比例した追加のオーバーヘッドで、双方向の注意とセグメントの再発を受け入れる。
広く使われている言語モデリングベンチマークの実験は、異なる種類のメモリを備えたベースラインよりも優れていることを示した。
論文 参考訳(メタデータ) (2022-04-15T06:11:25Z) - Adaptive Online Incremental Learning for Evolving Data Streams [4.3386084277869505]
最初の大きな困難はコンセプトドリフトであり、つまり、ストリーミングデータの確率分布はデータが到着するにつれて変化する。
第二の難しさは、破滅的な忘れ、すなわち、新しい知識を学ぶ前に学んだことを忘れることです。
我々の研究はこの観察に基づいており、これらの困難を克服しようと試みている。
論文 参考訳(メタデータ) (2022-01-05T14:25:53Z) - Memformer: A Memory-Augmented Transformer for Sequence Modeling [55.780849185884996]
本稿では、シーケンスモデリングのための効率的なニューラルネットワークであるMemformerを紹介する。
我々のモデルは長いシーケンスを処理する際に線形時間複雑性と一定メモリ空間複雑性を実現する。
論文 参考訳(メタデータ) (2020-10-14T09:03:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。