論文の概要: Investigating the Indirect Object Identification circuit in Mamba
- arxiv url: http://arxiv.org/abs/2407.14008v2
- Date: Mon, 22 Jul 2024 02:13:58 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-23 13:31:17.919174
- Title: Investigating the Indirect Object Identification circuit in Mamba
- Title(参考訳): マンバにおける間接物体識別回路の検討
- Authors: Danielle Ensign, Adrià Garriga-Alonso,
- Abstract要約: 我々は,マンバ前技法をマンバに適用し,間接物体識別(IOI)タスクに責任を持つ回路を部分的にリバースエンジニアリングする。
コントリビューションは,回路ベースの機械的解釈可能性ツールがMambaアーキテクチャに有効であることを示す最初の証拠を提供する。
- 参考スコア(独自算出の注目度): 1.1893676124374688
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: How well will current interpretability techniques generalize to future models? A relevant case study is Mamba, a recent recurrent architecture with scaling comparable to Transformers. We adapt pre-Mamba techniques to Mamba and partially reverse-engineer the circuit responsible for the Indirect Object Identification (IOI) task. Our techniques provide evidence that 1) Layer 39 is a key bottleneck, 2) Convolutions in layer 39 shift names one position forward, and 3) The name entities are stored linearly in Layer 39's SSM. Finally, we adapt an automatic circuit discovery tool, positional Edge Attribution Patching, to identify a Mamba IOI circuit. Our contributions provide initial evidence that circuit-based mechanistic interpretability tools work well for the Mamba architecture.
- Abstract(参考訳): 現在の解釈可能性技術は、将来のモデルにどのように一般化されるのか?
関連するケーススタディは、Transformersに匹敵するスケーリングを備えた、最近の反復アーキテクチャであるMambaである。
我々は,マンバ前技法をマンバに適用し,間接物体識別(IOI)タスクに責任を持つ回路を部分的にリバースエンジニアリングする。
私たちの技術は
1)レイヤ39は重要なボトルネックです。
2)第39層における畳み込みは、1つの位置を前方に指定し、
3) 名前エンティティはLayer 39のSSMに線形に格納される。
最後に,Mamba IOI 回路を識別するために,自動回路発見ツールである位置属性パッシングを適用した。
コントリビューションは,回路ベースの機械的解釈可能性ツールがMambaアーキテクチャに有効であることを示す最初の証拠を提供する。
関連論文リスト
- Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures [49.24097977047392]
本稿では,言語モデリングの主流となる2つのアーキテクチャ,すなわち Transformers と Mambas について検討する。
我々はこれらのモデルから解釈可能な特徴を分離するためにスパースオートエンコーダ(SAE)を用いることを提案し、これらの2つのモデルでほとんどの特徴が似ていることを示す。
論文 参考訳(メタデータ) (2024-10-09T08:28:53Z) - Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。
我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。
本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文 参考訳(メタデータ) (2024-05-26T15:31:09Z) - NetMamba: Efficient Network Traffic Classification via Pre-training Unidirectional Mamba [14.02833253204577]
ネットワークトラフィックの分類は、サービス品質の向上、ネットワーク管理の効率化、サイバーセキュリティの強化を目的とした重要な研究分野である。
既存のアプローチは2つの大きな課題に直面している。まず、広く使われているTransformerアーキテクチャの2次複雑さのために、モデル非効率に苦しむ。
本稿では,包括的トラフィック表現方式を備えた線形時間空間モデルであるNetMambaを提案する。
論文 参考訳(メタデータ) (2024-05-19T04:58:53Z) - Decision Mamba Architectures [1.4255659581428335]
決定マンバアーキテクチャは、様々なタスク領域でトランスフォーマーより優れていることが示されている。
決定マンバ(DM)と階層決定マンバ(HDM)の2つの新しい手法を紹介する。
我々は,ほとんどのタスクにおいて,TransformerモデルよりもMambaモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-13T17:18:08Z) - Locating and Editing Factual Associations in Mamba [22.097117651225595]
本研究では,マンバ状態空間モデルにおける事実的リコールのメカニズムについて検討する。
我々はMambaを同様のサイズの自己回帰変換器LMと直接比較する。
論文 参考訳(メタデータ) (2024-04-04T17:58:31Z) - RankMamba: Benchmarking Mamba's Document Ranking Performance in the Era of Transformers [2.8554857235549753]
トランスフォーマーアーキテクチャのコアメカニズム -- 注意には、トレーニングにおけるO(n2)$時間複雑さと推論におけるO(n)$時間複雑さが必要です。
状態空間モデルに基づく有名なモデル構造であるMambaは、シーケンスモデリングタスクにおいてトランスフォーマー等価のパフォーマンスを達成した。
同じトレーニングレシピを持つトランスフォーマーベースモデルと比較して,Mambaモデルは競争性能が向上することがわかった。
論文 参考訳(メタデータ) (2024-03-27T06:07:05Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。