論文の概要: State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space Models
- arxiv url: http://arxiv.org/abs/2503.03499v1
- Date: Wed, 05 Mar 2025 13:44:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-06 15:51:33.142897
- Title: State-offset Tuning: State-based Parameter-Efficient Fine-Tuning for State Space Models
- Title(参考訳): 状態オフセットチューニング:状態空間モデルのための状態ベースパラメータ効率の良い微調整
- Authors: Wonjun Kang, Kevin Galim, Yuchen Zeng, Minjae Lee, Hyung Il Koo, Nam Ik Cho,
- Abstract要約: ステートスペースモデル(SSM)はトランスフォーマーの効率的な代替品として登場した。
Prompt TuningやPrefix-Tuningのようなプロンプトベースのメソッドは、SSMではうまく機能しない。
本稿では,プロンプトベースの手法の代替として,状態ベースの手法を提案する。
- 参考スコア(独自算出の注目度): 19.262293564884715
- License:
- Abstract: State Space Models (SSMs) have emerged as efficient alternatives to Transformers, mitigating their quadratic computational cost. However, the application of Parameter-Efficient Fine-Tuning (PEFT) methods to SSMs remains largely unexplored. In particular, prompt-based methods like Prompt Tuning and Prefix-Tuning, which are widely used in Transformers, do not perform well on SSMs. To address this, we propose state-based methods as a superior alternative to prompt-based methods. This new family of methods naturally stems from the architectural characteristics of SSMs. State-based methods adjust state-related features directly instead of depending on external prompts. Furthermore, we introduce a novel state-based PEFT method: State-offset Tuning. At every timestep, our method directly affects the state at the current step, leading to more effective adaptation. Through extensive experiments across diverse datasets, we demonstrate the effectiveness of our method. Code is available at https://github.com/furiosa-ai/ssm-state-tuning.
- Abstract(参考訳): 状態空間モデル(SSM)はトランスフォーマーの効率的な代替品として登場し、その2次計算コストを軽減している。
しかし、パラメータ効率の良いファインチューニング(PEFT)法をSSMに適用することは、まだほとんど探索されていない。
特に、トランスフォーマーで広く使われているPrompt TuningやPrefix-Tuningのようなプロンプトベースのメソッドは、SSMではうまく機能しない。
そこで本稿では,プロンプトベースの手法よりも優れた方法として,状態ベースの手法を提案する。
この新しい手法のファミリーは、自然にSSMのアーキテクチャ的特徴に起因している。
状態ベースのメソッドは、外部のプロンプトに依存するのではなく、状態に関連した機能を直接調整する。
さらに,新しい状態ベースPEFT手法,State-offset Tuningを導入する。
各段階において、本手法は現在の段階の状態を直接的に影響し、より効果的に適応する。
多様なデータセットにまたがる広範な実験を通じて,本手法の有効性を実証する。
コードはhttps://github.com/furiosa-ai/ssm-state-tuningで入手できる。
関連論文リスト
- Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - Sparse Orthogonal Parameters Tuning for Continual Learning [34.462967722928724]
事前学習モデル(PTM)に基づく連続学習手法が近年注目されている。
本稿では,SoTU(Sparse Orthogonal Parameters TUning)と呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2024-11-05T05:19:09Z) - State-Free Inference of State-Space Models: The Transfer Function Approach [132.83348321603205]
状態のない推論では、状態サイズが大きくなると大きなメモリや計算コストは発生しない。
提案した周波数領域転送関数のパラメトリゼーション特性を用いてこれを実現する。
長い畳み込みハイエナベースライン上での言語モデリングにおける難易度の改善を報告した。
論文 参考訳(メタデータ) (2024-05-10T00:06:02Z) - Parameter-Adaptive Approximate MPC: Tuning Neural-Network Controllers without Retraining [50.00291020618743]
この研究は、大規模なデータセットを再計算し、再トレーニングすることなくオンラインチューニングが可能な、新しいパラメータ適応型AMPCアーキテクチャを導入している。
資源制約の厳しいマイクロコントローラ(MCU)を用いた2種類の実カートポールシステムの揺らぎを制御し,パラメータ適応型AMPCの有効性を示す。
これらの貢献は、現実世界のシステムにおけるAMPCの実践的応用に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-04-08T20:02:19Z) - Parameter-Efficient Fine-Tuning without Introducing New Latency [7.631596468553607]
隠れ表現の代わりに事前学習パラメータに直接アダプタを適用する新しいアダプタ技術を導入する。
提案手法は,性能と記憶効率の両面で新たな最先端性を実現し,完全微調整のパラメータは0.03%に過ぎなかった。
論文 参考訳(メタデータ) (2023-05-26T08:44:42Z) - Ahead-of-Time P-Tuning [0.2538209532048867]
Ahead-of-Time (AoT) P-Tuningは、事前学習言語モデル(LM)のためのパラメータ効率の良い微調整法である
我々は,RoBERTaモデルとDeBERTaモデルを用いて,GLUEおよびSuperGLUEベンチマークデータセットのAoT P-Tuningを評価する。
提案手法は, 1 つのバックボーン LM を用いてマルチタスクの推論を可能にする。
論文 参考訳(メタデータ) (2023-05-18T09:24:53Z) - Rethinking Efficient Tuning Methods from a Unified Perspective [34.67645496324432]
我々はPETLの設計パラダイムを再検討し、パラメータ効率の伝達学習のための統一的なフレームワークU-Tuningを導出する。
U-Tuningフレームワークは、既存の手法を同時に包含し、パラメータ効率の移行学習のための新しいアプローチを導出することができる。
論文 参考訳(メタデータ) (2023-03-01T17:38:03Z) - On Controller Tuning with Time-Varying Bayesian Optimization [74.57758188038375]
制御対象とその変更に関する適切な事前知識を用いて、時間変化最適化(TVBO)を用いて、変更環境におけるコントローラのオンラインチューニングを行う。
本研究では,不確実性注入(UI)を用いたTVBO戦略を提案する。
我々のモデルはTVBOの最先端手法よりも優れており、後悔の軽減と不安定なパラメータ構成の低減を実現している。
論文 参考訳(メタデータ) (2022-07-22T14:54:13Z) - Parameter-Efficient Tuning by Manipulating Hidden States of Pretrained
Language Models For Classification Tasks [49.807185872741066]
トレーニング可能なベクトルを3つだけ導入する簡単なチューニング手法を提案する。
統合された隠れ状態(s)をタスク固有の線形分類器に入力し、カテゴリを予測する。
このスキームは、ELMoが隠された状態をLSTMベースのモデルに供給する以外は、隠された状態を利用する方法に似ている。
論文 参考訳(メタデータ) (2022-04-10T04:14:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。