論文の概要: Characterizing Mamba's Selective Memory using Auto-Encoders
- arxiv url: http://arxiv.org/abs/2512.15653v1
- Date: Wed, 17 Dec 2025 18:05:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-18 17:06:27.092218
- Title: Characterizing Mamba's Selective Memory using Auto-Encoders
- Title(参考訳): オートエンコーダを用いたマンバ選択メモリのキャラクタリゼーション
- Authors: Tamanna Hossain, Robert L. Logan, Ganesh Jagadeesan, Sameer Singh, Joel Tetreault, Alejandro Jaimes,
- Abstract要約: 状態空間モデル(SSM)は、推論中に固定メモリを使用するため、言語モデリングのためのトランスフォーマーに代わる有望な代替品である。
これまでの研究では、この情報損失が発生するシーケンス長について研究されてきたが、SSM言語モデル(LM)が忘れがちな情報のタイプを特徴付けていない。
我々は、SSM LMによってよく忘れられるトークンの種類(たとえば、音声の一部、名前付きエンティティ)とシーケンス(例えば、コード、数学の問題)を識別する。
- 参考スコア(独自算出の注目度): 49.83619099242128
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State space models (SSMs) are a promising alternative to transformers for language modeling because they use fixed memory during inference. However, this fixed memory usage requires some information loss in the hidden state when processing long sequences. While prior work has studied the sequence length at which this information loss occurs, it does not characterize the types of information SSM language models (LMs) tend to forget. In this paper, we address this knowledge gap by identifying the types of tokens (e.g., parts of speech, named entities) and sequences (e.g., code, math problems) that are more frequently forgotten by SSM LMs. We achieve this by training an auto-encoder to reconstruct sequences from the SSM's hidden state, and measure information loss by comparing inputs with their reconstructions. We perform experiments using the Mamba family of SSM LMs (130M--1.4B) on sequences ranging from 4--256 tokens. Our results show significantly higher rates of information loss on math-related tokens (e.g., numbers, variables), mentions of organization entities, and alternative dialects to Standard American English. We then examine the frequency that these tokens appear in Mamba's pretraining data and find that less prevalent tokens tend to be the ones Mamba is most likely to forget. By identifying these patterns, our work provides clear direction for future research to develop methods that better control Mamba's ability to retain important information.
- Abstract(参考訳): 状態空間モデル(SSM)は、推論中に固定メモリを使用するため、言語モデリングのためのトランスフォーマーに代わる有望な代替品である。
しかし、この固定メモリの使用には、長いシーケンスを処理する際に隠された状態に何らかの情報を失う必要がある。
これまでの研究では、この情報損失が発生するシーケンス長について研究されてきたが、SSM言語モデル(LM)が忘れがちな情報のタイプを特徴付けていない。
本稿では,SSM LMでよく忘れられるトークンの種類(例:音声の一部,名前付きエンティティ)とシーケンス(例:コード,数学問題)を識別することで,この知識ギャップに対処する。
我々は、自動エンコーダを訓練して、SSMの隠された状態からシーケンスを再構築し、入力とそれらの再構成を比較して情報損失を測定する。
我々は,SSM LM(130M--1.4B)のMambaファミリーを用いて,4-256トークンのシーケンスについて実験を行った。
その結果,数学関連トークン(例えば,数,変数),組織実体の言及,標準アメリカ英語の代替方言について,情報損失率を著しく高めた。
次に、これらのトークンがマムバの事前学習データに現れる頻度を調べ、マムバが忘れる確率の低いトークンがマムバの忘れる確率の低いトークンであることを示す。
これらのパターンを同定することにより、今後の研究がマンバの重要情報の保持能力をよりよく制御する手法を開発するための明確な方向性を提供する。
関連論文リスト
- Demystifying Verbatim Memorization in Large Language Models [67.49068128909349]
大きな言語モデル(LLM)は、しばしば長いシーケンスを冗長に記憶し、しばしば深刻な法的およびプライバシー上の意味を持つ。
我々は, Pythia チェックポイントからのプレトレーニングをインジェクトシーケンスで継続することにより, 制御された環境下での動詞の暗記を学習する枠組みを開発する。
その結果,(1) 動詞の暗記には非自明な繰り返しが必要であり,(2) 後続の(おそらくはより良い)チェックポイントは,アウト・オブ・ディストリビューション・シーケンスであっても,動詞の列を暗記する傾向にあることがわかった。
論文 参考訳(メタデータ) (2024-07-25T07:10:31Z) - HMT: Hierarchical Memory Transformer for Efficient Long Context Language Processing [33.720656946186885]
Hierarchical Memory Transformer (HMT) はモデル長文処理を容易にする新しいフレームワークである。
HMTは、既存のモデルの長文処理能力を一貫して改善する。
論文 参考訳(メタデータ) (2024-05-09T19:32:49Z) - Rethinking LLM Memorization through the Lens of Adversarial Compression [93.13830893086681]
Webスケールデータセットでトレーニングされた大規模言語モデル(LLM)は、許容可能なデータ使用に関する重大な懸念を提起する。
ひとつ大きな疑問は、これらのモデルがすべてのトレーニングデータを"記憶する"のか、それとも、人間がどのように情報を学び、合成するかに何らかの方法で多くのデータソースを統合するのかである。
本稿では,LLMの記憶度を評価する指標として,ACR(Adversarial Compression Ratio)を提案する。
論文 参考訳(メタデータ) (2024-04-23T15:49:37Z) - MambaByte: Token-free Selective State Space Model [71.90159903595514]
マンババイト(英: MambaByte)は、マンバSSMがバイト配列で自己回帰的に訓練したトークンレス適応である。
MambaByteは、言語モデリングタスクにおいて、最先端のサブワードトランスフォーマーよりも優れています。
論文 参考訳(メタデータ) (2024-01-24T18:53:53Z) - Quantifying Memorization Across Neural Language Models [61.58529162310382]
大規模言語モデル(LM)は、トレーニングデータの一部を記憶するために示され、適切に誘導されると、記憶されたデータを冗長に出力する。
これは、暗記がプライバシーを侵害し(ユーザーデータをエクスポーティングする)、実用性を低下させ(繰り返し覚えやすいテキストは、しばしば品質が低い)、公平性を損なうため、望ましくない。
本稿では、LMが記憶されたトレーニングデータを出力する度合いを定量化する3つの対数線形関係について述べる。
論文 参考訳(メタデータ) (2022-02-15T18:48:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。