Fugu-MT 論文翻訳(概要): MambaLRP: Explaining Selective State Space Sequence Models

論文の概要: MambaLRP: Explaining Selective State Space Sequence Models

arxiv url: http://arxiv.org/abs/2406.07592v2
Date: Thu, 31 Oct 2024 00:01:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:33.502275
Title: MambaLRP: Explaining Selective State Space Sequence Models
Title（参考訳）: MambaLRP: Selective State Space Sequence Modelの説明
Authors: Farnoush Rezaei Jafari, Grégoire Montavon, Klaus-Robert Müller, Oliver Eberle,
Abstract要約: 選択状態空間列モデル(マンバモデルと呼ばれる)を用いた最近のシーケンスモデリング手法は、関心が高まりつつある。これらのモデルは、線形時間における長いシーケンスの効率的な処理を可能にし、言語モデリングのような広範囲のアプリケーションで急速に採用されている。現実のシナリオにおける信頼性の高い利用を促進するためには、透明性を高めることが重要です。
参考スコア（独自算出の注目度）: 18.133138020777295
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent sequence modeling approaches using selective state space sequence models, referred to as Mamba models, have seen a surge of interest. These models allow efficient processing of long sequences in linear time and are rapidly being adopted in a wide range of applications such as language modeling, demonstrating promising performance. To foster their reliable use in real-world scenarios, it is crucial to augment their transparency. Our work bridges this critical gap by bringing explainability, particularly Layer-wise Relevance Propagation (LRP), to the Mamba architecture. Guided by the axiom of relevance conservation, we identify specific components in the Mamba architecture, which cause unfaithful explanations. To remedy this issue, we propose MambaLRP, a novel algorithm within the LRP framework, which ensures a more stable and reliable relevance propagation through these components. Our proposed method is theoretically sound and excels in achieving state-of-the-art explanation performance across a diverse range of models and datasets. Moreover, MambaLRP facilitates a deeper inspection of Mamba architectures, uncovering various biases and evaluating their significance. It also enables the analysis of previous speculations regarding the long-range capabilities of Mamba models.
Abstract（参考訳）: 選択状態空間列モデル(マンバモデルと呼ばれる)を用いた最近のシーケンスモデリング手法は、関心が高まりつつある。これらのモデルは、線形時間における長いシーケンスの効率的な処理を可能にし、言語モデリングのような幅広いアプリケーションで急速に採用され、有望な性能を示す。現実のシナリオにおける信頼性の高い利用を促進するためには、透明性を高めることが重要です。私たちの研究は、説明可能性、特にLayer-wise Relevance Propagation(LRP)をMambaアーキテクチャにもたらすことで、この重要なギャップを埋めます。関係保存の公理に導かれ、マムバ建築の特定の構成要素を特定し、不誠実な説明を引き起こす。この問題を解決するため,LRP フレームワーク内の新しいアルゴリズムである MambaLRP を提案する。提案手法は理論的に健全であり,多種多様なモデルやデータセットにまたがる最先端の説明性能を実現するのに優れている。さらに、MambaLRPは、Mambaアーキテクチャのより深い検査を促進し、様々なバイアスを明らかにし、それらの重要性を評価する。また、マンバ模型の長距離能力に関する以前の憶測の分析も可能である。

関連論文リスト

Differential Mamba [16.613266337054267]
TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
論文参考訳（メタデータ） (2025-07-08T17:30:14Z)
Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
From Markov to Laplace: How Mamba In-Context Learns Markov Chains [36.22373318908893]
我々はマルコフ連鎖の文脈内学習について研究し、驚くべき現象を明らかにする。トランスとは異なり、単層マンバでさえ、文脈内ラプラシアスムージング推定器を効率的に学習する。これらの理論的な洞察は経験的な結果と強く一致し、マンバと最適統計推定器の間の最初の公式な関係を表す。
論文参考訳（メタデータ） (2025-02-14T14:13:55Z)
On the Expressivity of Selective State-Space Layers: A Multivariate Polynomial Approach [64.03138838775456]
選択的なステートスペースレイヤは、Mambaアーキテクチャの重要なコンポーネントである。マンバは長い列に対する線形注意に基づくモデルよりも優れた表現力を提供する。本研究は,各種データセットの総合的な実験により検証した。
論文参考訳（メタデータ） (2025-02-04T10:46:39Z)
Manta: Enhancing Mamba for Few-Shot Action Recognition of Long Sub-Sequence [33.38031167119682]
数ショットのアクション認識では、ビデオの長いサブシーケンスは、アクション全体をより効果的に表現する。最近のMambaは、長いシーケンスをモデリングする効率を示すが、MambaをFSARに直接適用することは、局所的な特徴モデリングとアライメントの重要性を見落としている。これらの課題を解決するために,Matryoshka MAmba と CoNtrasTive LeArning フレームワーク (Manta) を提案する。 Mantaは、SSv2、Kineetics、UCF101、HMDB51などの著名なベンチマークで、最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2024-12-10T13:03:42Z)
Mamba-CL: Optimizing Selective State Space Model in Null Space for Continual Learning [54.19222454702032]
継続的学習は、AIモデルに時間とともに一連のタスクを学習する能力を持たせることを目的としている。ステートスペースモデル(SSM)はコンピュータビジョンにおいて顕著な成功を収めた。大規模マンバ基礎モデルのコアSSMを連続的に微調整するフレームワークであるMamba-CLを紹介する。
論文参考訳（メタデータ） (2024-11-23T06:36:16Z)
ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文参考訳（メタデータ） (2024-08-28T02:47:27Z)
Bidirectional Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。 SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文参考訳（メタデータ） (2024-08-21T09:12:59Z)
MambaVT: Spatio-Temporal Contextual Modeling for robust RGB-T Tracking [51.28485682954006]
本研究では,マンバをベースとした純フレームワーク(MambaVT)を提案する。具体的には、長距離クロスフレーム統合コンポーネントを考案し、ターゲットの外観変化にグローバルに適応する。実験では、RGB-TトラッキングのためのMambaのビジョンの可能性が示され、MambaVTは4つの主要なベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2024-08-15T02:29:00Z)
A Survey of Mamba [27.939712558507516]
近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
論文参考訳（メタデータ） (2024-08-02T09:18:41Z)
Mamba-PTQ: Outlier Channels in Recurrent Large Language Models [49.1574468325115]
本研究では,マンバモデルが注目型LLMで観測された異常チャネルと同じパターンを示すことを示す。本研究では,SSMの定量化が難しい理由は,トランスフォーマーベースLLMで見られるような,アクティベーションアウトレーヤによるものであることを示す。
論文参考訳（メタデータ） (2024-07-17T08:21:06Z)
CMamba: Channel Correlation Enhanced State Space Models for Multivariate Time Series Forecasting [18.50360049235537]
ステートスペースモデルであるMambaは、堅牢なシーケンスと機能ミキシング機能を備えている。チャネル間の依存関係のキャプチャは、時系列予測のパフォーマンス向上に不可欠である。時系列予測に適した改良されたマンバ変種を導入する。
論文参考訳（メタデータ） (2024-06-08T01:32:44Z)
Mamba as Decision Maker: Exploring Multi-scale Sequence Modeling in Offline Reinforcement Learning [16.23977055134524]
我々はMamba Decision Maker (MambaDM) という新しいアクション予測手法を提案する。 MambaDMは、マルチスケール依存関係の効率的なモデリングのため、シーケンスモデリングのパラダイムの有望な代替品として期待されている。本稿では,RL領域におけるMambaDMのシーケンスモデリング機能について述べる。
論文参考訳（メタデータ） (2024-06-04T06:49:18Z)
The Hidden Attention of Mamba Models [54.50526986788175]
Mamba層は、複数のドメインをモデリングするのに非常に効果的である効率的な選択状態空間モデル(SSM)を提供する。このようなモデルを注意駆動モデルとみなすことができる。この新たな視点は、トランスの自己保持層のメカニズムを経験的かつ理論的に比較することを可能にする。
論文参考訳（メタデータ） (2024-03-03T18:58:21Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。