論文の概要: Explaining Modern Gated-Linear RNNs via a Unified Implicit Attention Formulation
- arxiv url: http://arxiv.org/abs/2405.16504v2
- Date: Fri, 18 Oct 2024 12:20:11 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-21 14:22:17.971839
- Title: Explaining Modern Gated-Linear RNNs via a Unified Implicit Attention Formulation
- Title(参考訳): 統一的意図定式化による近代Gated-Linear RNNの解説
- Authors: Itamar Zimerman, Ameen Ali, Lior Wolf,
- Abstract要約: 効率的なシーケンスモデリングの最近の進歩は、Mamba、RWKV、および様々なゲートRNNのような注意のないレイヤーを生み出している。
我々はこれらのモデルの統一的なビューを示し、暗黙の因果自己注意層のような層を定式化する。
筆者らのフレームワークは,異なるレイヤに対する類似の基盤となるメカニズムを比較検討し,説明可能性の手法を直接適用する手段を提供する。
- 参考スコア(独自算出の注目度): 54.50526986788175
- License:
- Abstract: Recent advances in efficient sequence modeling have led to attention-free layers, such as Mamba, RWKV, and various gated RNNs, all featuring sub-quadratic complexity in sequence length and excellent scaling properties, enabling the construction of a new type of foundation models. In this paper, we present a unified view of these models, formulating such layers as implicit causal self-attention layers. The formulation includes most of their sub-components and is not limited to a specific part of the architecture. The framework compares the underlying mechanisms on similar grounds for different layers and provides a direct means for applying explainability methods. Our experiments show that our attention matrices and attribution method outperform an alternative and a more limited formulation that was recently proposed for Mamba. For the other architectures for which our method is the first to provide such a view, our method is effective and competitive in the relevant metrics compared to the results obtained by state-of-the-art Transformer explainability methods. Our code is publicly available.
- Abstract(参考訳): 効率的なシーケンスモデリングの最近の進歩は、Mamba、RWKV、および様々なゲートRNNのような注意のないレイヤーをもたらし、これらは全て、シーケンス長のサブクアドラルな複雑さと優れたスケーリング特性を特徴とし、新しいタイプの基礎モデルの構築を可能にしている。
本稿では,これらのモデルについて,暗黙の因果自己注意層のような層を定式化した統一的な視点を示す。
定式化にはサブコンポーネントの大部分が含まれており、アーキテクチャの特定の部分に限定されていない。
このフレームワークは、異なるレイヤに対して同様の基盤で基盤となるメカニズムを比較し、説明可能性メソッドを適用する直接的な手段を提供する。
実験の結果,我々の注意行列と帰属法は,最近マンバのために提案された代替案やより限定的な定式化よりも優れていることがわかった。
このようなビューを最初に提供する他のアーキテクチャに対して,本手法は最先端のTransformer説明可能性法で得られた結果と比較して,関連する指標に対して有効かつ競争力がある。
私たちのコードは公開されています。
関連論文リスト
- NormXLogit: The Head-on-Top Never Lies [15.215985417763472]
トランスフォーマーアーキテクチャは、大きな言語モデルを構築する上で主要な選択肢となっている。
個々の入力トークンの意義を評価するため,NormXLogitと呼ばれる新しい手法を提案する。
提案手法は,忠実度の観点から,既存の勾配法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2024-11-25T10:12:27Z) - Understanding the differences in Foundation Models: Attention, State Space Models, and Recurrent Neural Networks [50.29356570858905]
本稿では,これらすべてのアーキテクチャの共通表現に関する原則的な調査を可能にする動的システムフレームワーク(DSF)について紹介する。
ソフトマックスアテンションと他のモデルクラスとの原理的比較を行い、ソフトマックスアテンションを近似できる理論条件について議論する。
このことは、DSFが将来のより効率的でスケーラブルな基盤モデルの体系的な開発を導く可能性を示している。
論文 参考訳(メタデータ) (2024-05-24T17:19:57Z) - Attention Mechanisms Don't Learn Additive Models: Rethinking Feature Importance for Transformers [12.986126243018452]
我々は,変圧器のフレームワークに合わせて設計された新しい代理モデルであるSoftmax-Linked Additive Log-Odds Model (SLALOM)を紹介する。
SLALOMは、合成データセットと実世界のデータセットの両方にわたって、忠実で洞察に富んだ説明を提供する能力を示している。
論文 参考訳(メタデータ) (2024-05-22T11:14:00Z) - CLIP-QDA: An Explainable Concept Bottleneck Model [3.570403495760109]
本稿では,高速かつ説明可能な画像分類を行うマルチモーダル基礎モデルから設計した説明可能なアルゴリズムを提案する。
我々の説明は計算を高速化しながら既存のXAI手法と競合する。
論文 参考訳(メタデータ) (2023-11-30T18:19:47Z) - Classification of BCI-EEG based on augmented covariance matrix [0.0]
本稿では,運動画像分類の改善を目的とした自己回帰モデルから抽出した拡張共分散に基づく新しいフレームワークを提案する。
私たちはMOABBフレームワークを使って、いくつかのデータセットといくつかの主題でアプローチを検証します。
論文 参考訳(メタデータ) (2023-02-09T09:04:25Z) - MACE: An Efficient Model-Agnostic Framework for Counterfactual
Explanation [132.77005365032468]
MACE(Model-Agnostic Counterfactual Explanation)の新たな枠組みを提案する。
MACE法では, 優れた反実例を見つけるための新しいRL法と, 近接性向上のための勾配のない降下法を提案する。
公開データセットの実験は、有効性、空間性、近接性を向上して検証する。
論文 参考訳(メタデータ) (2022-05-31T04:57:06Z) - Embedded-model flows: Combining the inductive biases of model-free deep
learning and explicit probabilistic modeling [8.405013085269976]
ドメイン固有の帰納バイアスを埋め込んだ構造層を用いた汎用変換を交互に行う組込みモデルフローを提案する。
EMFは,多モード性,階層的結合性,連続性などの望ましい特性を誘導するのに有効であることを示す。
実験では、この手法が一般的な構造的推論問題において最先端の手法より優れていることを示す。
論文 参考訳(メタデータ) (2021-10-12T14:12:16Z) - Closed-Form Factorization of Latent Semantics in GANs [65.42778970898534]
画像合成のために訓練されたGAN(Generative Adversarial Networks)の潜在空間に、解釈可能な次元の豊富なセットが出現することが示されている。
本研究では,GANが学習した内部表現について検討し,その基礎となる変動要因を教師なしで明らかにする。
本稿では,事前学習した重みを直接分解することで,潜在意味発見のためのクローズドフォーム因数分解アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-07-13T18:05:36Z) - Evaluating the Disentanglement of Deep Generative Models through
Manifold Topology [66.06153115971732]
本稿では,生成モデルのみを用いた乱れの定量化手法を提案する。
複数のデータセットにまたがるいくつかの最先端モデルを実証的に評価する。
論文 参考訳(メタデータ) (2020-06-05T20:54:11Z) - Explainable Matrix -- Visualization for Global and Local
Interpretability of Random Forest Classification Ensembles [78.6363825307044]
本研究では,ランダムフォレスト (RF) 解釈のための新しい可視化手法である Explainable Matrix (ExMatrix) を提案する。
単純なマトリックスのようなメタファで、行はルール、列は特徴、セルはルールを述語する。
ExMatrixの適用性は、異なる例を通じて確認され、RFモデルの解釈可能性を促進するために実際にどのように使用できるかを示している。
論文 参考訳(メタデータ) (2020-05-08T21:03:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。