論文の概要: Mamba Knockout for Unraveling Factual Information Flow
- arxiv url: http://arxiv.org/abs/2505.24244v1
- Date: Fri, 30 May 2025 06:08:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:52.794186
- Title: Mamba Knockout for Unraveling Factual Information Flow
- Title(参考訳): Mamba Knockout for Unraveling Factual Information Flow
- Authors: Nir Endy, Idan Daniel Grosbard, Yuval Ran-Milo, Yonatan Slutzky, Itay Tshuva, Raja Giryes,
- Abstract要約: 我々は、Transformerベースのアーキテクチャとその注意機構に対する理論的および実証的な接続に依存している。
我々は,最初にトランスフォーマー用に開発された注意的解釈可能性技術を,Mamba-1とMamba-2に適応させる。
マンバの構造的因子化をさらに活用することにより、異なる「特徴」がトークンからトークンへの情報交換を可能か、あるいは個々のトークンを豊かにするかを混乱させます。
- 参考スコア(独自算出の注目度): 22.520634805939093
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper investigates the flow of factual information in Mamba State-Space Model (SSM)-based language models. We rely on theoretical and empirical connections to Transformer-based architectures and their attention mechanisms. Exploiting this relationship, we adapt attentional interpretability techniques originally developed for Transformers--specifically, the Attention Knockout methodology--to both Mamba-1 and Mamba-2. Using them we trace how information is transmitted and localized across tokens and layers, revealing patterns of subject-token information emergence and layer-wise dynamics. Notably, some phenomena vary between mamba models and Transformer based models, while others appear universally across all models inspected--hinting that these may be inherent to LLMs in general. By further leveraging Mamba's structured factorization, we disentangle how distinct "features" either enable token-to-token information exchange or enrich individual tokens, thus offering a unified lens to understand Mamba internal operations.
- Abstract(参考訳): 本稿では,マンバ州空間モデル(SSM)に基づく言語モデルにおける事実情報のフローについて検討する。
我々は、Transformerベースのアーキテクチャとその注意機構に対する理論的および実証的な接続に依存している。
本研究は,トランスフォーマー向けに開発された注意解釈可能性技術,特に注意ノックアウト手法を,Mamba-1 と Mamba-2 に適応させるものである。
それらを用いて、情報がどのようにトークンやレイヤ間で伝達され、ローカライズされるかを追跡し、主観的な情報発生とレイヤワイズダイナミクスのパターンを明らかにする。
特に、いくつかの現象はマンバモデルとトランスフォーマーベースモデルの間で異なるが、他の現象は検査された全てのモデルに普遍的に現れる。
マンバの構造的因子化をさらに活用することにより、トークンからトークンへの情報交換や個々のトークンの強化を可能にする「機能」が、マンバの内部操作を理解するために統合されたレンズを提供することが、いかに混乱する。
関連論文リスト
- LaTIM: Measuring Latent Token-to-Token Interactions in Mamba Models [1.249658136570244]
状態空間モデル(SSM)は、長文シーケンスモデリングのための変換器の効率的な代替品として登場した。
SSMには、注意に基づくアーキテクチャの理解と改善に不可欠であった解釈可能性ツールが欠けている。
我々は, 精密な解釈を可能にする, Mamba-1 と Mamba-2 のトークンレベル分解法である LaTIM を紹介する。
論文 参考訳(メタデータ) (2025-02-21T17:33:59Z) - TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。
提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。
クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures [49.24097977047392]
本稿では,言語モデリングの主流となる2つのアーキテクチャ,すなわち Transformers と Mambas について検討する。
我々はこれらのモデルから解釈可能な特徴を分離するためにスパースオートエンコーダ(SAE)を用いることを提案し、これらの2つのモデルでほとんどの特徴が似ていることを示す。
論文 参考訳(メタデータ) (2024-10-09T08:28:53Z) - MergeNet: Knowledge Migration across Heterogeneous Models, Tasks, and Modalities [72.05167902805405]
異種モデルのパラメータ空間のギャップを埋めることを学ぶMergeNetを提案する。
MergeNetの中核となるメカニズムはパラメータアダプタにあり、ソースモデルの低ランクパラメータをクエリすることで動作する。
MergeNetは両方のモデルと共に学習され、我々のフレームワークは、現在のステージに関する知識を動的に転送し、適応することができます。
論文 参考訳(メタデータ) (2024-04-20T08:34:39Z) - Locating and Editing Factual Associations in Mamba [22.097117651225595]
本研究では,マンバ状態空間モデルにおける事実的リコールのメカニズムについて検討する。
我々はMambaを同様のサイズの自己回帰変換器LMと直接比較する。
論文 参考訳(メタデータ) (2024-04-04T17:58:31Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Seeking Neural Nuggets: Knowledge Transfer in Large Language Models from a Parametric Perspective [106.92016199403042]
パラメトリック・パースペクティブを用いて,大規模モデルから小規模モデルへの知識伝達を実証的に検討する。
感性に基づく手法を用いて、異なる大言語モデル間で知識固有のパラメータを抽出・調整する。
本研究は,パラメトリックな知識伝達の過程に寄与する重要な要因を明らかにする。
論文 参考訳(メタデータ) (2023-10-17T17:58:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。