論文の概要: DYNAMAX: Dynamic computing for Transformers and Mamba based architectures
- arxiv url: http://arxiv.org/abs/2504.20922v1
- Date: Tue, 29 Apr 2025 16:38:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-02 19:15:54.992373
- Title: DYNAMAX: Dynamic computing for Transformers and Mamba based architectures
- Title(参考訳): DYNAMAX: トランスフォーマーとMambaベースのアーキテクチャのための動的コンピューティング
- Authors: Miguel Nogales, Matteo Gambella, Manuel Roveri,
- Abstract要約: アーリーエグジット(EE)は、データサンプルに対する十分な予測信頼が達成されれば、推論を動的に終了させることで、計算コストとレイテンシを低減するための有望なアプローチを提供する。
DYNAMAXは、初期の出口機構のためにMambaアーキテクチャのユニークな特性を利用する最初のフレームワークである。
- 参考スコア(独自算出の注目度): 2.5739385355356714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Early exits (EEs) offer a promising approach to reducing computational costs and latency by dynamically terminating inference once a satisfactory prediction confidence on a data sample is achieved. Although many works integrate EEs into encoder-only Transformers, their application to decoder-only architectures and, more importantly, Mamba models, a novel family of state-space architectures in the LLM realm, remains insufficiently explored. This work introduces DYNAMAX, the first framework to exploit the unique properties of Mamba architectures for early exit mechanisms. We not only integrate EEs into Mamba but also repurpose Mamba as an efficient EE classifier for both Mamba-based and transformer-based LLMs, showcasing its versatility. Our experiments employ the Mistral 7B transformer compared to the Codestral 7B Mamba model, using data sets such as TruthfulQA, CoQA, and TriviaQA to evaluate computational savings, accuracy, and consistency. The results highlight the adaptability of Mamba as a powerful EE classifier and its efficiency in balancing computational cost and performance quality across NLP tasks. By leveraging Mamba's inherent design for dynamic processing, we open pathways for scalable and efficient inference in embedded applications and resource-constrained environments. This study underscores the transformative potential of Mamba in redefining dynamic computing paradigms for LLMs.
- Abstract(参考訳): アーリーエグジット(EE)は、データサンプルに対する十分な予測信頼が達成されれば、推論を動的に終了させることで、計算コストとレイテンシを低減するための有望なアプローチを提供する。
多くの研究がEEをエンコーダのみのトランスフォーマーに統合しているが、それらがデコーダのみのアーキテクチャに応用され、さらに重要なのは、LLM領域における新しいステートスペースアーキテクチャのファミリーであるMambaモデルである。
DYNAMAXは、初期の出口機構のためにMambaアーキテクチャのユニークな特性を利用する最初のフレームワークである。
私たちは、EEをMambaに統合するだけでなく、MambaベースのLLMとトランスフォーマーベースのLLMの両方のための効率的なEE分類器として、Mambaを再利用し、その汎用性を示します。
実験では,Codestral 7B Mambaモデルと比較して,TruthfulQA,CoQA,TriviaQAなどのデータセットを用いて計算保存,精度,整合性を評価する。
結果は、強力なEE分類器としてのMambaの適応性と、計算コストとNLPタスク間の性能品質のバランスをとる効率を強調した。
Mambaの本質的な設計を動的処理に活用することにより、組み込みアプリケーションやリソース制約のある環境において、スケーラブルで効率的な推論のための経路を開放する。
本研究では, LLM の動的計算パラダイムを再定義する上で, Mamba の変換可能性について述べる。
関連論文リスト
- TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。
提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。
クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文 参考訳(メタデータ) (2025-02-21T01:22:01Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - State Space Models are Strong Text Rerankers [33.41687512973575]
Mambaのようなステートスペースモデル(SSM)は有望な利点を提供する。
その可能性にもかかわらず、SSMのテキストの再ランクにおける有効性は未定のままである。
Mambaアーキテクチャは、同様のサイズのトランスフォーマーベースのモデルに匹敵する、競合するテキストランキングのパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-12-18T21:42:15Z) - Bi-Mamba: Towards Accurate 1-Bit State Space Models [28.478762133816726]
Bi-Mambaは、より効率的な大規模言語モデルのために設計されたスケーラブルでパワフルな1ビットのMambaアーキテクチャである。
Bi-Mambaは完全な精度(FP16やBF16など)に匹敵するパフォーマンスを実現し、ポストトレーニングバイナリ化(PTB)のMambaベースラインよりもはるかに精度が高い。
論文 参考訳(メタデータ) (2024-11-18T18:59:15Z) - Mamba for Scalable and Efficient Personalized Recommendations [0.135975510645475]
本稿では,FT-Transformer アーキテクチャにおいて,Transformer 層を Mamba 層に置き換える新しいハイブリッドモデルを提案する。
FT-Mambaを従来のTransformerベースモデルと比較し,3つのデータセット上でのTwo-Towerアーキテクチャについて検討した。
論文 参考訳(メタデータ) (2024-09-11T14:26:14Z) - ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。
ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文 参考訳(メタデータ) (2024-08-28T02:47:27Z) - SIGMA: Selective Gated Mamba for Sequential Recommendation [56.85338055215429]
最近の進歩であるMambaは、時系列予測において例外的なパフォーマンスを示した。
SIGMA(Selective Gated Mamba)と呼ばれる,シークエンシャルレコメンデーションのための新しいフレームワークを紹介する。
以上の結果から,SIGMAは5つの実世界のデータセットにおいて,現在のモデルよりも優れていたことが示唆された。
論文 参考訳(メタデータ) (2024-08-21T09:12:59Z) - MaIL: Improving Imitation Learning with Mamba [30.96458274130313]
Mamba Imitation Learning (MaIL)は、最先端(SoTA)トランスフォーマーベースのポリシーの代替を提供する。
Mambaのアーキテクチャは、重要な特徴に焦点をあてることで、表現学習効率を高める。
MaILは、制限されたデータで全てのLIBEROタスクでトランスフォーマーを一貫して上回る。
論文 参考訳(メタデータ) (2024-06-12T14:01:12Z) - PointMamba: A Simple State Space Model for Point Cloud Analysis [65.59944745840866]
我々は、最近の代表的状態空間モデル(SSM)であるMambaの成功を、NLPからポイントクラウド分析タスクへ転送するPointMambaを提案する。
従来のトランスフォーマーとは異なり、PointMambaは線形複雑性アルゴリズムを採用し、グローバルなモデリング能力を示しながら計算コストを大幅に削減する。
論文 参考訳(メタデータ) (2024-02-16T14:56:13Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。