Fugu-MT 論文翻訳(概要): MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba

論文の概要: MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba

arxiv url: http://arxiv.org/abs/2411.03855v1
Date: Wed, 06 Nov 2024 11:57:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:44.943451
Title: MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba
Title（参考訳）: MambaPEFT:Mambaのためのパラメータ効率の良いファインチューニング
Authors: Masakazu Yoshimura, Teruaki Hayashi, Yota Maeda,
Abstract要約: ステートスペースモデル(SSM)ベースのモデルであるMambaは、トランスフォーマーの代替として注目されている。 Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。本研究では,マンバの固有構造を利用した新しいPEFT法を提案する。
参考スコア（独自算出の注目度）: 0.5530212768657544
License: http://creativecommons.org/licenses/by/4.0/
Abstract: An ecosystem of Transformer-based models has been established by building large models with extensive data. Parameter-efficient fine-tuning (PEFT) is a crucial technology for deploying these models to downstream tasks with minimal cost while achieving effective performance. Recently, Mamba, a State Space Model (SSM)-based model, has attracted attention as a potential alternative to Transformers. While many large-scale Mamba-based models have been proposed, efficiently adapting pre-trained Mamba-based models to downstream tasks remains unexplored. In this paper, we conduct an exploratory analysis of PEFT methods for Mamba. We investigate the effectiveness of existing PEFT methods for Transformers when applied to Mamba. We also modify these methods to better align with the Mamba architecture. Additionally, we propose new Mamba-specific PEFT methods that leverage the distinctive structure of Mamba. Our experiments indicate that PEFT performs more effectively for Mamba than Transformers. Lastly, we demonstrate how to effectively combine multiple PEFT methods and provide a framework that outperforms previous works. To ensure reproducibility, we will release the code after publication.
Abstract（参考訳）: Transformerベースのモデルのエコシステムは、大規模なモデルを広範なデータで構築することで確立されている。パラメータ効率の良い微調整(PEFT)は、これらのモデルを最小限のコストで下流タスクに展開し、効果的な性能を達成する上で重要な技術である。最近、ステートスペースモデル(SSM)ベースのモデルであるMambaがトランスフォーマーの代替として注目を集めている。多くの大規模なマンバベースモデルが提案されているが、トレーニング済みのマンバベースモデルを下流タスクに効率的に適応させることは未定である。本稿では,マンバのPEFT法を探索的に解析する。 Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。また、これらのメソッドをMambaアーキテクチャとの整合性を改善するために修正します。さらに,マンバの特異構造を利用した新しいPEFT法を提案する。実験の結果,PEFTはトランスフォーマーよりもマムバの方が効果的であることが示唆された。最後に、複数のPEFTメソッドを効果的に組み合わせ、従来の作業より優れたフレームワークを提供する方法について述べる。再現性を確保するため、公開後、コードを公開します。

関連論文リスト

Differential Mamba [16.613266337054267]
TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
論文参考訳（メタデータ） (2025-07-08T17:30:14Z)
Memba: Membrane-driven Parameter-Efficient Fine-Tuning for Mamba [21.474315621757594]
State Space Models (SSM) はアテンションベースのトランスフォーマーの強力な代替品として登場した。メンバは膜駆動である。 PEFTはMamba用に特別に設計されたアプローチである。
論文参考訳（メタデータ） (2025-06-22T21:52:45Z)
Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文参考訳（メタデータ） (2025-02-21T01:22:01Z)
MatIR: A Hybrid Mamba-Transformer Image Restoration Model [95.17418386046054]
そこで我々は,MatIRと呼ばれるMamba-Transformerハイブリッド画像復元モデルを提案する。 MatIRはTransformer層とMamba層のブロックをクロスサイクルして特徴を抽出する。 Mambaモジュールでは、4つのスキャンパスに沿って横断するImage Inpainting State Space (IRSS)モジュールを導入する。
論文参考訳（メタデータ） (2025-01-30T14:55:40Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
MAP: Unleashing Hybrid Mamba-Transformer Vision Backbone's Potential with Masked Autoregressive Pretraining [23.37555991996508]
本稿では,Masked Autoregressive Pretraining (MAP) を提案する。 MAPで事前学習したMambaアーキテクチャとハイブリッドMamba-Transformerビジョンバックボーンネットワークが,他の事前学習戦略よりも優れていることを示す。
論文参考訳（メタデータ） (2024-10-01T17:05:08Z)
Mamba for Scalable and Efficient Personalized Recommendations [0.135975510645475]
本稿では,FT-Transformer アーキテクチャにおいて,Transformer 層を Mamba 層に置き換える新しいハイブリッドモデルを提案する。 FT-Mambaを従来のTransformerベースモデルと比較し,3つのデータセット上でのTwo-Towerアーキテクチャについて検討した。
論文参考訳（メタデータ） (2024-09-11T14:26:14Z)
ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文参考訳（メタデータ） (2024-08-28T02:47:27Z)
MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
本稿では,視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンであるMambaVisionを提案する。私たちのコアコントリビューションには、視覚的特徴の効率的なモデリング能力を高めるために、Mambaの定式化を再設計することが含まれています。視覚変換器(ViT)とマンバの統合可能性に関する包括的アブレーション研究を行う。
論文参考訳（メタデータ） (2024-07-10T23:02:45Z)
Venturing into Uncharted Waters: The Navigation Compass from Transformer to Mamba [77.21394300708172]
ディープニューラルネットワークアーキテクチャであるTransformerは、長年、自然言語処理などの分野を支配してきた。マンバの最近の導入は、その優位性に挑戦し、研究者の間でかなりの関心を喚起し、マンバをベースとした一連のモデルが顕著な可能性を示している。本研究は,総合的な議論をまとめ,本質的な研究の側面に潜り込み,(1)構造的状態空間モデルの原理に基づくマンバ機構の機能とその基盤,(2)提案されたマンバの様々なネットワークへの統合,(3)トランスフォーマーの代替としての可能性を探る。
論文参考訳（メタデータ） (2024-06-24T15:27:21Z)
An Empirical Study of Mamba-based Language Models [69.74383762508805]
Mambaのような選択的な状態空間モデル(SSM)はトランスフォーマーの欠点を克服する。同じデータセット上で訓練された8B-context Mamba, Mamba-2, Transformer モデルを直接比較する。 8BのMamba-2-Hybridは、12の標準タスクで8BのTransformerを上回っている。
論文参考訳（メタデータ） (2024-06-12T05:25:15Z)
Mamba State-Space Models Are Lyapunov-Stable Learners [1.6385815610837167]
Mamba State-space Model (SSM) は、最近様々なタスクでTransformer Large Language Model (LLM) より優れていることが示されている。我々は,Mambaのリカレントダイナミクスが小さな入力変化に対して堅牢であることを示す。また、命令チューニングにより、Mambaモデルはこのギャップを81%に、Mamba-2モデルはこのギャップを132%に制限できることを示す。
論文参考訳（メタデータ） (2024-05-31T21:46:23Z)
Decision Mamba Architectures [1.4255659581428335]
決定マンバアーキテクチャは、様々なタスク領域でトランスフォーマーより優れていることが示されている。決定マンバ(DM)と階層決定マンバ(HDM)の2つの新しい手法を紹介する。我々は,ほとんどのタスクにおいて,TransformerモデルよりもMambaモデルの方が優れていることを示す。
論文参考訳（メタデータ） (2024-05-13T17:18:08Z)
CLIP-Mamba: CLIP Pretrained Mamba Models with OOD and Hessian Evaluation [18.383760896304604]
本報告では,コントラッシブ・テクニカル・イメージ・プレトレーニング(CLIP)を利用したMambaモデルをトレーニングする最初の試みを紹介する。 Mambaモデル67万のパラメータは、ゼロショット分類タスクにおけるビジョントランスフォーマー(ViT)モデルと同等である。
論文参考訳（メタデータ） (2024-04-30T09:40:07Z)
Swin-UMamba: Mamba-based UNet with ImageNet-based pretraining [85.08169822181685]
本稿では,医療画像のセグメンテーションに特化して設計された新しいマンバモデルSwin-UMambaを紹介する。 Swin-UMamba は CNN や ViT,最新の Mamba ベースのモデルと比較して,優れたパフォーマンスを示している。
論文参考訳（メタデータ） (2024-02-05T18:58:11Z)
MoE-Mamba: Efficient Selective State Space Models with Mixture of Experts [4.293771840782942]
状態空間モデル(SSM)は、シーケンシャルモデリングの分野において真剣な競争者となっている。 MoEは、最近の最先端のオープンモデルを含むトランスフォーマーベースの大規模言語モデルを大幅に改善した。スケーリングのためのSSMの可能性を解き放つためには、MoEと組み合わせるべきである。
論文参考訳（メタデータ） (2024-01-08T18:35:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。