論文の概要: Sparsified State-Space Models are Efficient Highway Networks
- arxiv url: http://arxiv.org/abs/2505.20698v1
- Date: Tue, 27 May 2025 04:07:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-28 17:05:58.400632
- Title: Sparsified State-Space Models are Efficient Highway Networks
- Title(参考訳): 分散状態空間モデルは効率的なハイウェイネットワークである
- Authors: Woomin Song, Jihoon Tack, Sangwoo Mo, Seunghyuk Oh, Jinwoo Shin,
- Abstract要約: ステートスペースモデル(SSM)は、高価な自己アテンションを線形リカレンスに置き換えることでトランスフォーマーに代わるものを提供する。
本稿では,計算予算内でSSMをスパース化して拡張する,単純かつ効果的な手法を提案する。
Simbaはトークンプルーニングに基づくSSMの階層的スペーシフィケーション手法である。
- 参考スコア(独自算出の注目度): 52.29954079160793
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: State-space models (SSMs) offer a promising architecture for sequence modeling, providing an alternative to Transformers by replacing expensive self-attention with linear recurrences. In this paper, we propose a simple yet effective trick to enhance SSMs within given computational budgets by sparsifying them. Our intuition is that tokens in SSMs are highly redundant due to gradual recurrent updates, and dense recurrence operations block the delivery of past information. In particular, we observe that upper layers of SSMs tend to be more redundant as they encode global information, while lower layers encode local information. Motivated by this, we introduce Simba, a hierarchical sparsification method for SSMs based on token pruning. Simba sparsifies upper layers more than lower layers, encouraging the upper layers to behave like highways. To achieve this, we propose a novel token pruning criterion for SSMs, measuring the global impact of tokens on the final output by accumulating local recurrences. We demonstrate that Simba outperforms the baseline model, Mamba, with the same FLOPS in various natural language tasks. Moreover, we illustrate the effect of highways, showing that Simba not only enhances efficiency but also improves the information flow across long sequences. Code is available at https://github.com/woominsong/Simba.
- Abstract(参考訳): 状態空間モデル(SSM)はシーケンスモデリングのための有望なアーキテクチャを提供し、高価な自己アテンションを線形リカレンスに置き換えることでトランスフォーマーに代わるものを提供する。
本稿では,計算予算内でSSMをスパース化して拡張する,単純かつ効果的な手法を提案する。
我々の直感では、段階的に更新されるため、SSMのトークンは極めて冗長であり、密集した反復操作は過去の情報の配信を妨げている。
特に,SSMの上位層はグローバル情報をエンコードする一方,下位層はローカル情報をエンコードする傾向にある。
そこで我々は,トークンプルーニングに基づくSSMの階層的スカラー化手法であるSimbaを紹介した。
シンバは上層を下層以上の層に分散させ、上層を高速道路のように振る舞うように促す。
そこで本研究では, 局所再発を蓄積することにより, 最終出力に対するトークンのグローバルな影響を計測し, 新たなトークンプルーニング基準を提案する。
我々は,SimbaがベースラインモデルであるMambaより優れていることを示す。
さらに, 高速道路の効果を概説し, シムバは効率の向上だけでなく, 長期にわたる情報フローの向上も図っている。
コードはhttps://github.com/woominsong/Simba.comで入手できる。
関連論文リスト
- Message-Passing State-Space Models: Improving Graph Learning with Modern Sequence Modeling [19.10832920407789]
我々は、メッセージパッシングニューラルネットワークフレームワークに直接、現代のSSMの鍵となる原則を組み込むことによって、新しい視点を導入する。
我々は,MP-SSMを用いて,メッセージパッシングのアーキテクチャ的単純さを保ちながら,効率よく,順列同変かつ長距離情報伝達を可能にする。
論文 参考訳(メタデータ) (2025-05-24T14:53:07Z) - STree: Speculative Tree Decoding for Hybrid State-Space Models [46.17007054146938]
投機的復号化(英: Speculative decoding)は、大規模自己回帰変換(AR)モデルの効率を改善するためにハードウェアを活用する手法である。
状態空間モデル(SSM)とハイブリッドアーキテクチャでツリーベースの投機的復号化を行うための,最初のスケーラブルアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-05-20T23:12:16Z) - Exploring Token Pruning in Vision State Space Models [38.122017567843905]
状態空間モデル(SSM)は、変圧器の注意モジュールと比較して線形計算の複雑さを維持する利点がある。
我々はトークンベースのプルーニングにより、SSMベースの視覚モデルの効率を向上する新たなステップを採っている。
刈り取られたPlainMamba-L3のFLOPを41.6%削減して、ImageNetの81.7%の精度を実現した。
論文 参考訳(メタデータ) (2024-09-27T17:59:50Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - Bypass Back-propagation: Optimization-based Structural Pruning for Large Language Models via Policy Gradient [57.9629676017527]
大規模言語モデルを用いた最適化に基づく構造解析手法を提案する。
我々は,プルーニングモデルの損失を最適化することにより,確率空間におけるプルーニングマスクを直接学習する。
A100 GPUで13Bモデルに対して約35GBのメモリで2.7時間動作させる。
論文 参考訳(メタデータ) (2024-06-15T09:31:03Z) - SMR: State Memory Replay for Long Sequence Modeling [19.755738298836526]
本稿では並列畳み込み計算における互換性の限界を克服する新しい非再帰的非一様サンプル処理戦略を提案する。
本研究では,学習可能な記憶を利用する状態記憶再生(SMR)を導入し,学習データと異なるサンプリングポイントでの一般化のために,現在の状態を多段階情報で調整する。
自己回帰言語モデリングとLong Range Arenaにおける長距離モデリングタスクの実験は、一連のSSMモデルに対するSMRメカニズムの一般的な効果を実証している。
論文 参考訳(メタデータ) (2024-05-27T17:53:32Z) - Submodular Reinforcement Learning [38.40138241424851]
強化学習(RL)では、状態の報酬は通常加法的と見なされ、マルコフの仮定に従って、それらは以前に訪れた状態に対して$textitindependent$である。
カバー範囲制御、実験設計、情報経路計画といった多くの重要な応用において、報酬は自然にリターンを減少させ、すなわち、それらの価値は以前に訪れた同様の状態から減少する。
減少するリターンをキャプチャするサブモジュール集合関数をモデルとした,より汎用的で非付加的(かつ履歴に依存しない)報酬を最適化するパラダイムである$textitsubmodular RL$ (SubRL)を提案する。
論文 参考訳(メタデータ) (2023-07-25T09:46:02Z) - Efficient Long Sequence Modeling via State Space Augmented Transformer [92.74707853711374]
我々はSPADE($underlinetextbfS$tate sunderlinetextbfP$ace)を提案する。
我々は,SPADEの底層にSSMを付加し,他の層に対して効率的な局所的注意法を適用した。
Long Range Arenaベンチマークと言語モデリングタスクの実験結果から,提案手法の有効性が示された。
論文 参考訳(メタデータ) (2022-12-15T20:51:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。