Fugu-MT 論文翻訳(概要): Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear Transformation

論文の概要: Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear Transformation

arxiv url: http://arxiv.org/abs/2411.15224v1
Date: Thu, 21 Nov 2024 04:58:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:50.302784
Title: Parameter Efficient Mamba Tuning via Projector-targeted Diagonal-centric Linear Transformation
Title（参考訳）: プロジェクタターゲット型対角中心線形変換による効率的なマンバチューニング
Authors: Seokil Ham, Hee-Seon Kim, Sangmin Woo, Changick Kim,
Abstract要約: 我々は,Mambaアーキテクチャにおいて,パラメータ効率細調整(PEFT)のための2つの重要な洞察駆動戦略を導入する。我々は,Mambaアーキテクチャに特化した新しいPEFT手法を提案する:プロジェクタターゲット対角中心線形変換(ProDiaL)
参考スコア（独自算出の注目度）: 14.57480367514423
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Despite the growing interest in Mamba architecture as a potential replacement for Transformer architecture, parameter-efficient fine-tuning (PEFT) approaches for Mamba remain largely unexplored. In our study, we introduce two key insights-driven strategies for PEFT in Mamba architecture: (1) While state-space models (SSMs) have been regarded as the cornerstone of Mamba architecture, then expected to play a primary role in transfer learning, our findings reveal that Projectors -- not SSMs -- are the predominant contributors to transfer learning, and (2) Based on our observation that adapting pretrained Projectors to new tasks can be effectively approximated through a near-diagonal linear transformation, we propose a novel PEFT method specialized to Mamba architecture: Projector-targeted Diagonal-centric Linear Transformation (ProDiaL). ProDiaL focuses on optimizing only diagonal-centric linear transformation matrices, without directly fine-tuning the pretrained Projector weights. This targeted approach allows efficient task adaptation, utilizing less than 1% of the total parameters, and exhibits strong performance across both vision and language Mamba models, highlighting its versatility and effectiveness.
Abstract（参考訳）: トランスフォーマーアーキテクチャの代替として、Mambaアーキテクチャへの関心が高まりつつあるにもかかわらず、Mambaのパラメータ効率の良い微細チューニング(PEFT)アプローチは、まだほとんど探索されていない。本研究では,(1) 状態空間モデル (SSM) がマンバ建築の基盤とされ, 伝達学習において主要な役割を担うことが期待されている一方で, プロジェクタ(SSM)ではなくプロジェクタ(プロジェクタ)が伝達学習の主要な貢献者であること,(2) 事前学習されたプロジェクタを近対角線形変換により効果的に近似できるという観察に基づいて, マンバ建築に特化した新しいPEFT手法を提案する。 ProDiaLは、事前訓練されたプロジェクター重みを直接調整することなく、対角中心の線形変換行列のみを最適化することに焦点を当てている。このターゲットとなるアプローチは、全パラメータの1%未満を有効活用して、効率的なタスク適応を可能にし、視覚と言語の両方のMambaモデルに対して強力なパフォーマンスを示し、その汎用性と有効性を強調している。

関連論文リスト

Differential Mamba [16.613266337054267]
TransformerやRNNのようなシーケンスモデルは、しばしば無関係なコンテキストに注意を向け、ノイズの多い中間表現をもたらす。最近の研究は、差分設計がトランスフォーマーにおけるこの問題を緩和し、様々なアプリケーションにおけるそれらの効果を向上させることを示している。本研究では,マンバへの微分設計の素直な適応は不十分であり,注意深いアーキテクチャ修正が必要であることを示す。
論文参考訳（メタデータ） (2025-07-08T17:30:14Z)
Routing Mamba: Scaling State Space Models with Mixture-of-Experts Projection [88.47928738482719]
線形状態空間モデル(SSM)は、シーケンスモデリングにおいて顕著なパフォーマンス向上を提供する。 Mambaのような最近の進歩は、入力依存のゲーティングとハードウェア対応の実装により、SSMをさらに強化している。本稿では,線形射影の専門家による疎混合を用いてSSMパラメータをスケールする新しい手法であるRoM(Roing Mamba)を紹介する。
論文参考訳（メタデータ） (2025-06-22T19:26:55Z)
DYNAMAX: Dynamic computing for Transformers and Mamba based architectures [2.5739385355356714]
アーリーエグジット(EE)は、データサンプルに対する十分な予測信頼が達成されれば、推論を動的に終了させることで、計算コストとレイテンシを低減するための有望なアプローチを提供する。 DYNAMAXは、初期の出口機構のためにMambaアーキテクチャのユニークな特性を利用する最初のフレームワークである。
論文参考訳（メタデータ） (2025-04-29T16:38:15Z)
RoMA: Scaling up Mamba-based Foundation Models for Remote Sensing [47.536214063122515]
RoMAは、大規模で多様なラベルのないデータを使用して、RSファンデーションモデルのスケーラブルな自己教師付き事前トレーニングを可能にするフレームワークである。 RoMAは、カスタマイズされた自動回帰学習戦略により、高解像度画像のスケーラビリティを向上させる。シーン分類、オブジェクト検出、セマンティックセグメンテーションタスクにわたる実験により、RoMAで事前訓練されたMambaモデルは、精度と計算効率の両方において、ViTベースのモデルよりも一貫して優れていることが示された。
論文参考訳（メタデータ） (2025-03-13T14:09:18Z)
TransMamba: Fast Universal Architecture Adaption from Transformers to Mamba [88.31117598044725]
本稿では,既存のTransformerモデルの知識を,TransMambaと呼ばれる代替アーキテクチャのMambaに伝達するクロスアーキテクチャトレーニングについて検討する。提案手法では,新しいマンバモデルの訓練を高速化し,ユニモーダルタスクおよびクロスモーダルタスクにおける有効性を確保するための2段階戦略を採用している。クロスモーダル学習のために,言語認識をMambaの視覚的特徴に統合し,Mambaアーキテクチャのクロスモーダルインタラクション能力を向上するクロスマンバモジュールを提案する。
論文参考訳（メタデータ） (2025-02-21T01:22:01Z)
From Markov to Laplace: How Mamba In-Context Learns Markov Chains [36.22373318908893]
我々はマルコフ連鎖の文脈内学習について研究し、驚くべき現象を明らかにする。トランスとは異なり、単層マンバでさえ、文脈内ラプラシアスムージング推定器を効率的に学習する。これらの理論的な洞察は経験的な結果と強く一致し、マンバと最適統計推定器の間の最初の公式な関係を表す。
論文参考訳（メタデータ） (2025-02-14T14:13:55Z)
MobileMamba: Lightweight Multi-Receptive Visual Mamba Network [51.33486891724516]
従来の軽量モデルの研究は、主にCNNとTransformerベースの設計に重点を置いてきた。効率と性能のバランスをとるMobileMambaフレームワークを提案する。 MobileMambaはTop-1で83.6%を達成し、既存の最先端の手法を上回っている。
論文参考訳（メタデータ） (2024-11-24T18:01:05Z)
MambaPEFT: Exploring Parameter-Efficient Fine-Tuning for Mamba [0.5530212768657544]
ステートスペースモデル(SSM)ベースのモデルであるMambaは、トランスフォーマーの代替として注目されている。 Mambaに適用した場合のトランスフォーマーに対する既存のPEFT法の有効性について検討する。本研究では,マンバの固有構造を利用した新しいPEFT法を提案する。
論文参考訳（メタデータ） (2024-11-06T11:57:55Z)
Efficient Adaptation of Pre-trained Vision Transformer via Householder Transformation [53.88562288388169]
一般的な戦略である。事前訓練された視覚変換器(ViT)のPEFT(Efficient Fine-Tuning)は、下流タスクにモデルを適応させる。適応行列を表現するために,Singular Value Decomposition (SVD) にインスパイアされた新しいPEFT手法を提案する。 SVDは行列を左ユニタリ行列、スケーリング値の対角行列、右ユニタリ行列の積に分解する。
論文参考訳（メタデータ） (2024-10-30T12:08:30Z)
ReMamba: Equip Mamba with Effective Long-Sequence Modeling [50.530839868893786]
本研究では,長い文脈の理解能力を高めるReMambaを提案する。 ReMambaは2段階のプロセスで選択的圧縮と適応のテクニックを取り入れている。
論文参考訳（メタデータ） (2024-08-28T02:47:27Z)
Transformers to SSMs: Distilling Quadratic Knowledge to Subquadratic Models [92.36510016591782]
本稿では,事前学習したトランスフォーマーアーキテクチャを,状態空間モデル(SSM)などの代替アーキテクチャに蒸留する手法を提案する。提案手法はMOHAWKと呼ばれ、3Bトークンと5Bトークンを用いたハイブリッドバージョン(Hybrid Phi-Mamba)を用いてPhi-1.5アーキテクチャに基づくMamba-2変異体を蒸留することができる。 Phi-Mambaは、スクラッチからモデルのトレーニングに使用されるトレーニングデータの1%未満を使用してはいるが、過去のオープンソース非トランスフォーマーモデルと比較して、大幅にパフォーマンスが向上している。
論文参考訳（メタデータ） (2024-08-19T17:48:11Z)
MambaVision: A Hybrid Mamba-Transformer Vision Backbone [54.965143338206644]
視覚応用に適した新しいハイブリッド型Mamba-TransformerバックボーンMambaVisionを提案する。最終層に自己アテンションブロックを付加したMambaアーキテクチャは,長距離空間依存性を捕捉する能力を大幅に向上することを示す。 ImageNet-1Kデータセットの分類において、MambaVisionの変種は、Top-1の精度とスループットの両方の観点から、最先端(SOTA)のパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-07-10T23:02:45Z)
Mamba State-Space Models Are Lyapunov-Stable Learners [1.6385815610837167]
Mamba State-space Model (SSM) は、最近様々なタスクでTransformer Large Language Model (LLM) より優れていることが示されている。我々は,Mambaのリカレントダイナミクスが小さな入力変化に対して堅牢であることを示す。また、命令チューニングにより、Mambaモデルはこのギャップを81%に、Mamba-2モデルはこのギャップを132%に制限できることを示す。
論文参考訳（メタデータ） (2024-05-31T21:46:23Z)
Demystify Mamba in Vision: A Linear Attention Perspective [72.93213667713493]
Mambaは線形計算複雑性を持つ効率的な状態空間モデルである。我々は,Mambaが線形アテンショントランスフォーマーと驚くほど類似していることを示す。本稿では,これら2つの鍵設計の利点を線形注意に取り入れた,マンバ様線形注意(MLLA)モデルを提案する。
論文参考訳（メタデータ） (2024-05-26T15:31:09Z)
Cross-Architecture Transfer Learning for Linear-Cost Inference Transformers [1.1499643186017316]
本稿では,トランスフォーマ言語モデルの効率を向上させるために,クロスアーキテクチャトランスファー学習(XATL)を提案する。 Methodabbrはトレーニング時間を最大2.5倍に削減し、同じ計算予算内でLMベンチマークで最大2.6%より強力なモデルで最小限に収束する。
論文参考訳（メタデータ） (2024-04-03T12:27:36Z)
Is Mamba Capable of In-Context Learning? [63.682741783013306]
GPT-4のような技術基盤モデルの現状は、文脈内学習(ICL)において驚くほどよく機能するこの研究は、新たに提案された状態空間モデルであるMambaが同様のICL能力を持つという実証的な証拠を提供する。
論文参考訳（メタデータ） (2024-02-05T16:39:12Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。