論文の概要: TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba
- arxiv url: http://arxiv.org/abs/2502.15130v2
- Date: Thu, 09 Oct 2025 07:04:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 15:34:28.381749
- Title: TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba
- Title(参考訳): TransMamba: トランスフォーマーからMambaへの高速ユニバーサルアーキテクチャ適応
- Authors: Xiuwei Chen, Wentao Hu, Xiao Dong, Sihao Lin, Zisheng Chen, Meng Cao, Yina Zhuang, Jianhua Han, Hang Xu, Xiaodan Liang,
- Abstract要約: 本稿では,Transformer事前学習知識の再利用を容易にするクロスアーキテクチャな知識伝達パラダイムであるTransMambaを提案する。
本稿では,マンバをベースとしたモデルのトレーニングを高速化する2段階のフレームワークを提案する。
- 参考スコア(独自算出の注目度): 66.80624029365448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Transformer-based architectures have become the backbone of both uni-modal and multi-modal foundation models, largely due to their scalability via attention mechanisms, resulting in a rich ecosystem of publicly available pre-trained models such as LLaVA, CLIP, and DeiT, etc. In parallel, emerging sub-quadratic architectures like Mamba offer promising efficiency gains by enabling global context modeling with linear complexity. However, training these architectures from scratch remains resource-intensive (e.g., in terms of data and time). Motivated by this challenge, we explore a cross-architecture knowledge transfer paradigm, termed TransMamba, that facilitates the reuse of Transformer pre-trained knowledge. We propose a two-stage framework to accelerate the training of Mamba-based models, ensuring their effectiveness across both uni-modal and multi-modal tasks. The first stage leverages pre-trained Transformer models to initialize critical components of the Mamba architecture. To bridge architectural and dimensional gaps, we develop a selective weight subcloning strategy and a layered initialization scheme that prioritizes the early $n$ layers. Building on this initialization, the second stage introduces an adaptive multi-directional knowledge distillation method. This mechanism employs layer-wise adaptive scaling factors to align Mamba representations with their Transformer counterparts, while accommodating the scanning order variations inherent to multi-modal Mamba architectures. Despite operating with a reduced training dataset and a more compact model architecture, TransMamba consistently outperforms baseline approaches across diverse mamba-based backbones (e.g., PlainMamba, Vmamba, ViM and VideoMamba) and downstream tasks (e.g., image classification, visual question answering, text-video retrieval and multimodal reasoning). All code and implementation details will be released.
- Abstract(参考訳): トランスフォーマーベースのアーキテクチャは、ユニモーダルモデルとマルチモーダルモデルの両方のバックボーンとなり、主に注意機構によるスケーラビリティが原因で、LLaVA、CLIP、DeiTなどの公開トレーニング済みモデルのリッチなエコシステムが生まれている。
並行して、Mambaのような新しいサブクワッドラティックアーキテクチャは、線形複雑性を伴うグローバルコンテキストモデリングを可能にすることで、有望な効率向上を提供する。
しかしながら、これらのアーキテクチャをスクラッチからトレーニングすることは、リソース集約的(例えば、データと時間の観点から)である。
この課題に触発され,Transformer事前学習知識の再利用を容易にするTransMambaと呼ばれる,クロスアーキテクチャな知識伝達パラダイムを探求する。
本稿では,マンバをベースとしたモデルのトレーニングを高速化する2段階のフレームワークを提案する。
第1段階では、トレーニング済みのTransformerモデルを活用して、Mambaアーキテクチャの重要なコンポーネントを初期化している。
構造的および次元的ギャップを埋めるために、我々は、早期の$n$層を優先する選択的なウェイト・サブクロニング戦略と階層化初期化スキームを開発する。
この初期化に基づいて、第2段階は適応的な多方向知識蒸留法を導入する。
このメカニズムは、マルチモーダルなMambaアーキテクチャに固有のスキャン順序の変動を調節しながら、Mamba表現をTransformer表現と整合させる。
トレーニングデータセットの削減とモデルアーキテクチャのコンパクト化にもかかわらず、TransMambaは、さまざまなマンバベースのバックボーン(例:PlainMamba、Vmamba、ViM、VideoMamba)と下流タスク(例:画像分類、視覚的質問応答、テキスト-ビデオ検索、マルチモーダル推論)のベースラインアプローチを一貫して上回ります。
すべてのコードと実装の詳細がリリースされる。
関連論文リスト
- A Survey on Mamba Architecture for Vision Applications [7.216568558372857]
Mambaアーキテクチャは、ビジュアルタスクにおけるスケーラビリティの課題に対処する。
Vision MambaとVideoMambaは双方向走査、選択メカニズム、時間処理を導入し、画像とビデオの理解を高めている。
これらの進歩は、マンバをコンピュータビジョンの研究と応用における有望なアーキテクチャとして位置づけている。
論文 参考訳(メタデータ) (2025-02-11T00:59:30Z) - MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。
MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。
Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文 参考訳(メタデータ) (2025-01-30T14:55:40Z) - Mamba-SEUNet: Mamba UNet for Monaural Speech Enhancement [54.427965535613886]
Mambaは、新しいステートスペースモデル(SSM)として、自然言語処理やコンピュータビジョンに広く応用されている。
本稿では,MambaとU-Net for SEタスクを統合する革新的なアーキテクチャであるMamba-SEUNetを紹介する。
論文 参考訳(メタデータ) (2024-12-21T13:43:51Z) - MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。
効率と性能のバランスをとるMobileMambaフレームワークを提案する。
MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文 参考訳(メタデータ) (2024-11-24T18:01:05Z) - Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。
提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。
Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2024-08-19T17:48:11Z) - MambaMIM: Pre-training Mamba with State Space Token-interpolation [14.343466340528687]
選択構造状態空間補間(S6T)に基づくMamba(MambaMIM)の自己教師型学習手法を提案する。
MambaMIMは、Mambaの長距離表現能力を向上するために、任意の単一またはハイブリッドのMambaアーキテクチャで使用することができる。
論文 参考訳(メタデータ) (2024-08-15T10:35:26Z) - A Survey of Mamba [27.939712558507516]
近年,基礎モデル構築の代替手段として,Mambaという新しいアーキテクチャが登場している。
本研究では,マンバモデルの発展,多様なデータにマンバを適応させる技術,およびマンバが優れている応用について検討する。
論文 参考訳(メタデータ) (2024-08-02T09:18:41Z) - ChangeMamba: Remote Sensing Change Detection With Spatiotemporal State Space Model [18.063680125378347]
Mambaアーキテクチャは、一連の自然言語処理タスクにおいて顕著なパフォーマンスを示している。
我々は、バイナリ変更検出、セマンティック変更検出、建築損傷評価のために、MambaBCD、MambaSCD、MambaBDAと呼ばれる対応するフレームワークをカスタマイズする。
3つのフレームワークはいずれも最先端のVisual Mambaアーキテクチャをエンコーダとして採用しており、入力画像からグローバルな空間的情報を完全に学習することができる。
論文 参考訳(メタデータ) (2024-04-04T13:06:25Z) - Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能する
この研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文 参考訳(メタデータ) (2024-02-05T16:39:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。