論文の概要: Characterizing Mamba's Selective Memory using Auto-Encoders
- arxiv url: http://arxiv.org/abs/2512.15653v1
- Date: Wed, 17 Dec 2025 18:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.092218
- Title: Characterizing Mamba's Selective Memory using Auto-Encoders
- Title(参考訳): オートエンコーダを用いたマンバ選択メモリのキャラクタリゼーション
- Authors: Tamanna Hossain, Robert L. Logan, Ganesh Jagadeesan, Sameer Singh, Joel Tetreault, Alejandro Jaimes,
- Abstract要約: 状態空間モデル(SSM)は、推論中に固定メモリを使用するため、言語モデリングのためのトランスフォーマーに代わる有望な代替品である。
これまでの研究では、この情報損失が発生するシーケンス長について研究されてきたが、SSM言語モデル(LM)が忘れがちな情報のタイプを特徴付けていない。
我々は、SSM LMによってよく忘れられるトークンの種類(たとえば、音声の一部、名前付きエンティティ)とシーケンス(例えば、コード、数学の問題)を識別する。
- 参考スコア(独自算出の注目度): 49.83619099242128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State space models (SSMs) are a promising alternative to transformers for language modeling because they use fixed memory during inference. However, this fixed memory usage requires some information loss in the hidden state when processing long sequences. While prior work has studied the sequence length at which this information loss occurs, it does not characterize the types of information SSM language models (LMs) tend to forget. In this paper, we address this knowledge gap by identifying the types of tokens (e.g., parts of speech, named entities) and sequences (e.g., code, math problems) that are more frequently forgotten by SSM LMs. We achieve this by training an auto-encoder to reconstruct sequences from the SSM's hidden state, and measure information loss by comparing inputs with their reconstructions. We perform experiments using the Mamba family of SSM LMs (130M--1.4B) on sequences ranging from 4--256 tokens. Our results show significantly higher rates of information loss on math-related tokens (e.g., numbers, variables), mentions of organization entities, and alternative dialects to Standard American English. We then examine the frequency that these tokens appear in Mamba's pretraining data and find that less prevalent tokens tend to be the ones Mamba is most likely to forget. By identifying these patterns, our work provides clear direction for future research to develop methods that better control Mamba's ability to retain important information.
- Abstract(参考訳): 状態空間モデル(SSM)は、推論中に固定メモリを使用するため、言語モデリングのためのトランスフォーマーに代わる有望な代替品である。
しかし、この固定メモリの使用には、長いシーケンスを処理する際に隠された状態に何らかの情報を失う必要がある。
これまでの研究では、この情報損失が発生するシーケンス長について研究されてきたが、SSM言語モデル(LM)が忘れがちな情報のタイプを特徴付けていない。
本稿では,SSM LMでよく忘れられるトークンの種類(例:音声の一部,名前付きエンティティ)とシーケンス(例:コード,数学問題)を識別することで,この知識ギャップに対処する。
我々は、自動エンコーダを訓練して、SSMの隠された状態からシーケンスを再構築し、入力とそれらの再構成を比較して情報損失を測定する。
我々は,SSM LM(130M--1.4B)のMambaファミリーを用いて,4-256トークンのシーケンスについて実験を行った。
その結果,数学関連トークン(例えば,数,変数),組織実体の言及,標準アメリカ英語の代替方言について,情報損失率を著しく高めた。
次に、これらのトークンがマムバの事前学習データに現れる頻度を調べ、マムバが忘れる確率の低いトークンがマムバの忘れる確率の低いトークンであることを示す。
これらのパターンを同定することにより、今後の研究がマンバの重要情報の保持能力をよりよく制御する手法を開発するための明確な方向性を提供する。
関連論文リスト
- Emergence of Primacy and Recency Effect in Mamba: A Mechanistic Point of View [16.8179962093575]
予備効果と回帰効果を行動ツールとして用いた状態空間言語モデルの記憶について検討し、時間とともに情報がどのように保持され忘れられているかを明らかにする。
構造的リコールタスクをMambaアーキテクチャに適用し、入力シーケンスの開始と終了における強い性能を示す、一貫したU字型精度プロファイルを観察する。
論文 参考訳(メタデータ) (2025-06-18T06:02:02Z) - Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z) - Exploring Unsupervised Pretraining Objectives for Machine Translation [99.5441395624651]
教師なし言語間事前訓練は、ニューラルマシン翻訳(NMT)の強力な結果を得た
ほとんどのアプローチは、入力の一部をマスキングしてデコーダで再構成することで、シーケンス・ツー・シーケンスアーキテクチャにマスク付き言語モデリング(MLM)を適用する。
マスキングと、実際の(完全な)文に似た入力を生成する代替目的を、文脈に基づいて単語を並べ替えて置き換えることにより比較する。
論文 参考訳(メタデータ) (2021-06-10T10:18:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。