論文の概要: Mechanistic evaluation of Transformers and state space models
- arxiv url: http://arxiv.org/abs/2505.15105v1
- Date: Wed, 21 May 2025 04:56:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-22 15:42:58.87277
- Title: Mechanistic evaluation of Transformers and state space models
- Title(参考訳): 変圧器の力学評価と状態空間モデル
- Authors: Aryaman Arora, Neil Rathi, Nikil Roashan Selvam, Róbert Csórdas, Dan Jurafsky, Christopher Potts,
- Abstract要約: 言語モデリングのための状態空間モデル(SSM)は、2次アテンション変換器に代わる効率的でパフォーマンスの高い代替品である。
Associative Recall(AR)において、トランスフォーマーとベースSSMモデルのみが完全に成功することがわかった。
すべてのアーキテクチャがARと同じメカニズムを学んでおり、同じ3つのモデルがそのタスクで成功しています。
- 参考スコア(独自算出の注目度): 39.76681034405201
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State space models (SSMs) for language modelling promise an efficient and performant alternative to quadratic-attention Transformers, yet show variable performance on recalling basic information from the context. While performance on synthetic tasks like Associative Recall (AR) can point to this deficiency, behavioural metrics provide little information as to why--on a mechanistic level--certain architectures fail and others succeed. To address this, we conduct experiments on AR and find that only Transformers and Based SSM models fully succeed at AR, with Mamba a close third, whereas the other SSMs (H3, Hyena) fail. We then use causal interventions to explain why. We find that Transformers and Based learn to store key-value associations in-context using induction heads. By contrast, the SSMs compute these associations only at the last state, with only Mamba succeeding because of its short convolution component. To extend and deepen these findings, we introduce Associative Treecall (ATR), a synthetic task similar to AR based on PCFG induction. ATR introduces language-like hierarchical structure into the AR setting. We find that all architectures learn the same mechanism as they did for AR, and the same three models succeed at the task. These results reveal that architectures with similar accuracy may still have substantive differences, motivating the adoption of mechanistic evaluations.
- Abstract(参考訳): 言語モデリングのための状態空間モデル (SSM) は、2次アテンション変換器に代わる効率的でパフォーマンスの高い代替となるが、コンテキストから基本情報をリコールする際の可変性能を示す。
Associative Recall(AR)のような合成タスクのパフォーマンスは、この欠如を指摘できるが、振る舞いのメトリクスは、なぜ--機械的なレベルで--- が失敗し、他のアーキテクチャが成功するかに関してほとんど情報を提供しない。
これを解決するために、我々はAR上で実験を行い、トランスフォーマーとベースSSMモデルのみがARで完全に成功し、Mambaは3分の1であり、他のSSM(H3, Hyena)は失敗する。
次に、原因を説明するために因果的介入を使用します。
トランスフォーマーとベースは、インダクションヘッドを用いて、キー値の関連付けをコンテキストに格納することを学ぶ。
対照的に、SSMは最後の状態でのみこれらの関連を計算し、その短い畳み込み成分のため、Mambaのみが成功する。
これらの知見を拡張・深化するために,PCFG誘導に基づくARに似た合成タスクであるAssociative Treecall (ATR)を導入する。
ATRはAR設定に言語のような階層構造を導入する。
すべてのアーキテクチャがARと同じメカニズムを学んでおり、同じ3つのモデルがそのタスクで成功しています。
これらの結果から、類似した精度のアーキテクチャは依然として実質的な違いがあり、機械的評価の導入を動機付けていることが明らかとなった。
関連論文リスト
- On the locality bias and results in the Long Range Arena [49.15148871877941]
Long Range ArenaベンチマークはTransformerの改良性能を評価するために設計された。
ステート・スペース・モデル(SSM)のような新しいアーキテクチャは、LRAのトランスフォーマーよりも優れていた。
LRAは長距離依存モデリングのベンチマークであるが、実際にはほとんどのパフォーマンスは短距離依存によるものである。
論文 参考訳(メタデータ) (2025-01-24T15:34:50Z) - State Space Models are Strong Text Rerankers [33.41687512973575]
Mambaのようなステートスペースモデル(SSM)は有望な利点を提供する。
その可能性にもかかわらず、SSMのテキストの再ランクにおける有効性は未定のままである。
Mambaアーキテクチャは、同様のサイズのトランスフォーマーベースのモデルに匹敵する、競合するテキストランキングのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-18T21:42:15Z) - Towards Universality: Studying Mechanistic Similarity Across Language Model Architectures [49.24097977047392]
本稿では,言語モデリングの主流となる2つのアーキテクチャ,すなわち Transformers と Mambas について検討する。
我々はこれらのモデルから解釈可能な特徴を分離するためにスパースオートエンコーダ(SAE)を用いることを提案し、これらの2つのモデルでほとんどの特徴が似ていることを示す。
論文 参考訳(メタデータ) (2024-10-09T08:28:53Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。