論文の概要: TransMamba: Flexibly Switching between Transformer and Mamba
- arxiv url: http://arxiv.org/abs/2503.24067v1
- Date: Mon, 31 Mar 2025 13:26:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-01 14:34:10.010285
- Title: TransMamba: Flexibly Switching between Transformer and Mamba
- Title(参考訳): TransMamba: TransformerとMambaを柔軟に切り替える
- Authors: Yixing Li, Ruobing Xie, Zhen Yang, Xingwu Sun, Shuaipeng Li, Weidong Han, Zhanhui Kang, Yu Cheng, Chengzhong Xu, Di Wang, Jie Jiang,
- Abstract要約: 本稿ではTransformerとMambaを統合するフレームワークであるTransMambaを提案する。
本研究では,TransMambaがベースラインよりも優れたトレーニング効率と性能を実現することを示す。
- 参考スコア(独自算出の注目度): 43.20757187382281
- License:
- Abstract: Transformers are the cornerstone of modern large language models, but their quadratic computational complexity limits efficiency in long-sequence processing. Recent advancements in Mamba, a state space model (SSM) with linear complexity, offer promising efficiency gains but suffer from unstable contextual learning and multitask generalization. This paper proposes TransMamba, a novel framework that unifies Transformer and Mamba through shared parameter matrices (e.g., QKV and CBx), and thus could dynamically switch between attention and SSM mechanisms at different token lengths and layers. We design the Memory converter to bridge Transformer and Mamba by converting attention outputs into SSM-compatible states, ensuring seamless information flow at TransPoints where the transformation happens. The TransPoint scheduling is also thoroughly explored for further improvements. We conducted extensive experiments demonstrating that TransMamba achieves superior training efficiency and performance compared to baselines, and validated the deeper consistency between Transformer and Mamba paradigms, offering a scalable solution for next-generation sequence modeling.
- Abstract(参考訳): トランスフォーマーは現代の大規模言語モデルの基盤であるが、その2次計算複雑性は、長いシーケンス処理における効率を制限している。
線形複雑性を持つ状態空間モデル(SSM)であるMambaの最近の進歩は、有望な効率向上をもたらすが、不安定な文脈学習とマルチタスクの一般化に悩まされている。
本稿では,TransformerとMambaを共通パラメータ行列(例えばQKV,CBx)で統一する新しいフレームワークであるTransMambaを提案する。
我々は,TransformerとMambaをブリッジするメモリコンバータを設計し,アテンション出力をSSM互換状態に変換し,TransPointsでのシームレスな情報フローを確保する。
TransPointのスケジューリングも、さらなる改善のために徹底的に検討されている。
我々は,TransMambaがベースラインよりも優れたトレーニング効率と性能を達成することを実証し,TransformerとMambaのパラダイム間の深い一貫性を検証し,次世代シーケンスモデリングのためのスケーラブルなソリューションを提供した。
関連論文リスト
- MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - Integrating Multi-Modal Input Token Mixer Into Mamba-Based Decision Models: Decision MetaMamba [0.0]
状態空間モデル(SSM)を用いたシーケンスモデリングは、様々なタスクにおけるトランスフォーマーよりもパフォーマンスが優れていることを示した。
しかし、最先端のSSMであるMambaに基づく決定モデルは、拡張された決定変換器よりも優れた性能を達成できなかった。
本稿では,DMM(Decision MetaMamba)を提案する。
論文 参考訳(メタデータ) (2024-08-20T03:35:28Z) - An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。
同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。
8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文 参考訳(メタデータ) (2024-06-12T05:25:15Z) - Mamba State-Space Models Are Lyapunov-Stable Learners [1.6385815610837167]
Mamba State-space Model (SSM) は、最近様々なタスクでTransformer Large Language Model (LLM) より優れていることが示されている。
我々は,Mambaのリカレントダイナミクスが小さな入力変化に対して堅牢であることを示す。
また、命令チューニングにより、Mambaモデルはこのギャップを81%に、Mamba-2モデルはこのギャップを132%に制限できることを示す。
論文 参考訳(メタデータ) (2024-05-31T21:46:23Z) - MambaTS: Improved Selective State Space Models for Long-term Time Series Forecasting [12.08746904573603]
選択状態空間モデル(SSM)に基づくMambaは、Transformerの競合相手として登場した。
我々は4つの改善点を提案し、MambaTSに導いた。
8つの公開データセットで実施された実験は、MambaTSが新しい最先端のパフォーマンスを達成することを示す。
論文 参考訳(メタデータ) (2024-05-26T05:50:17Z) - MoEUT: Mixture-of-Experts Universal Transformers [75.96744719516813]
ユニバーサルトランスフォーマー(UT)は、合成一般化の学習において標準トランスフォーマーよりも有利である。
層共有は、同じ次元を持つ非共有モデルと比較してパラメータ数を大幅に削減する。
従来の作業では、言語モデリングのようなパラメータ数の支配的なタスクと競合する共有層トランスフォーマー設計の提案に成功しなかった。
論文 参考訳(メタデータ) (2024-05-25T03:24:32Z) - Decision Mamba Architectures [1.4255659581428335]
決定マンバアーキテクチャは、様々なタスク領域でトランスフォーマーより優れていることが示されている。
決定マンバ(DM)と階層決定マンバ(HDM)の2つの新しい手法を紹介する。
我々は,ほとんどのタスクにおいて,TransformerモデルよりもMambaモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2024-05-13T17:18:08Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z) - Mamba: Linear-Time Sequence Modeling with Selective State Spaces [31.985243136674146]
ファンデーションモデルは、ほぼ普遍的にTransformerアーキテクチャとコアアテンションモジュールに基づいている。
このようなモデルの重大な弱点は、コンテンツベースの推論を実行できないことである。
我々はこれらの選択的なSSMを、注意やブロック(Mamba)を使わずに、単純化されたエンドツーエンドニューラルネットワークアーキテクチャに統合する(Mamba)。
一般的なシーケンスモデルバックボーンとして、Mambaは言語、オーディオ、ゲノミクスといったいくつかのモードで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-12-01T18:01:34Z) - Learning Bounded Context-Free-Grammar via LSTM and the
Transformer:Difference and Explanations [51.77000472945441]
Long Short-Term Memory (LSTM) と Transformer は、自然言語処理タスクに使用される2つの一般的なニューラルネットワークアーキテクチャである。
実際には、トランスフォーマーモデルの方がLSTMよりも表現力が高いことがよく見られる。
本研究では,LSTMとTransformerの実践的差異について検討し,その潜在空間分解パターンに基づく説明を提案する。
論文 参考訳(メタデータ) (2021-12-16T19:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。