論文の概要: ULPT: Prompt Tuning with Ultra-Low-Dimensional Optimization
- arxiv url: http://arxiv.org/abs/2502.04501v1
- Date: Thu, 06 Feb 2025 21:00:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-10 14:57:04.545998
- Title: ULPT: Prompt Tuning with Ultra-Low-Dimensional Optimization
- Title(参考訳): ULPT:超低次元最適化によるプロンプトチューニング
- Authors: Zijun Wu, Yongchang Hao, Lili Mou,
- Abstract要約: 大規模言語モデルは最先端のパフォーマンスを実現するが、そのサイズのため微調整にはコストがかかる。
低次元空間におけるプロンプトを最適化する超低次元プロンプトチューニング(ULPT)を提案する。
提案する理論解析により, ランダム・プロジェクションは高階構造を効果的に捉えることができ, 実験結果から既存のパラメータ効率の手法に比べてUの競合性能が示された。
- 参考スコア(独自算出の注目度): 26.16200284965289
- License:
- Abstract: Large language models achieve state-of-the-art performance but are costly to fine-tune due to their size. Parameter-efficient fine-tuning methods, such as prompt tuning, address this by reducing trainable parameters while maintaining strong performance. However, prior methods tie prompt embeddings to the model's dimensionality, which may not scale well with larger LLMs and more customized LLMs. In this paper, we propose Ultra-Low-dimensional Prompt Tuning (ULPT), which optimizes prompts in a low-dimensional space (e.g., 2D) and use a random but frozen matrix for the up-projection. To enhance alignment, we introduce learnable shift and scale embeddings. ULPT drastically reduces the trainable parameters, e.g., 2D only using 2% parameters compared with vanilla prompt tuning while retaining most of the performance across 21 NLP tasks. Our theoretical analysis shows that random projections can capture high-rank structures effectively, and experimental results demonstrate ULPT's competitive performance over existing parameter-efficient methods.
- Abstract(参考訳): 大規模言語モデルは最先端のパフォーマンスを実現するが、そのサイズのため微調整にはコストがかかる。
プロンプトチューニングのようなパラメータ効率のよい微調整手法は、強い性能を維持しながらトレーニング可能なパラメータを減らし、この問題に対処する。
しかし、従来の手法は、より大きなLLMとよりカスタマイズされたLLMとうまくスケールできないモデルの次元性に即時埋め込みを結び付ける。
本稿では,低次元空間 (eg, 2D) におけるプロンプトを最適化する超低次元プロンプトチューニング (ULPT) を提案する。
アライメントを高めるために、学習可能なシフトとスケール埋め込みを導入する。
ULPTはトレーニング可能なパラメータ(例えば2D)を、21のNLPタスクにまたがるパフォーマンスを保ちながら、バニラプロンプトチューニングと比較して、2%のパラメータのみを使用して大幅に削減する。
提案する理論解析により, 乱射影は高階構造を効果的に捕捉できることが示され, 実験結果から, 既存のパラメータ効率の手法に比べてULPTの競合性能が示された。
関連論文リスト
- Sparse Gradient Compression for Fine-Tuning Large Language Models [58.44973963468691]
ダウンストリームタスクのための微調整された大型言語モデル(LLM)は、広く利用されていることと、オープンソースモデルの利用が増加しているために、ますます重要になっている。
微調整に伴う高メモリコストは、特にモデルのサイズが大きくなるにつれて大きな課題である。
これらの制約に対処するためにスパース圧縮勾配(SGC)を提案する。
論文 参考訳(メタデータ) (2025-02-01T04:18:28Z) - Expanding Sparse Tuning for Low Memory Usage [103.43560327427647]
メモリ使用量が少ないスパースチューニングのためのSNELL(Sparse tuning with kerNelized LoRA)法を提案する。
低メモリ使用量を達成するため、SNELLはスカラー化のための調整可能な行列を2つの学習可能な低ランク行列に分解する。
コンペティションに基づくスペーシフィケーション機構は、チューナブルウェイトインデックスの保存を避けるためにさらに提案される。
論文 参考訳(メタデータ) (2024-11-04T04:58:20Z) - Zeroth-Order Fine-Tuning of LLMs in Random Subspaces [66.27334633749734]
言語モデルのサイズが大きくなるにつれて、バックプロパゲーションに対するメモリ要求が増加する。
Zeroth-order (ZOZO) 最適化手法はメモリ効率の代替手段を提供する。
本稿では,SubZeroがファインチューニングを強化し,通常のZOZO手法と比較して高速な結果が得られることを示す。
論文 参考訳(メタデータ) (2024-10-11T17:01:43Z) - LoRTA: Low Rank Tensor Adaptation of Large Language Models [70.32218116940393]
Low Rank Adaptation (LoRA) は、PEFT (Efficient Fine Tuning) 法として人気がある。
よりコンパクトで柔軟な表現を可能にする高階Candecomp/Parafac(CP)分解を提案する。
本手法は,比較性能を維持しつつパラメータ数を削減できる。
論文 参考訳(メタデータ) (2024-10-05T06:59:50Z) - Zeroth-Order Fine-Tuning of LLMs with Extreme Sparsity [66.67596152389591]
ゼロ階最適化(ZO)は、微調整された大規模言語モデルのためのメモリ効率の高い戦略である。
本研究では,ZO を用いた LLM パラメータの極小サブセットの微調整の実現可能性について検討した。
この結果から,ZO を用いた LLM の微調整パラメータ 0.1% は,ZO の微調整性能より優れることが示された。
論文 参考訳(メタデータ) (2024-06-05T04:07:35Z) - LoRETTA: Low-Rank Economic Tensor-Train Adaptation for
Ultra-Low-Parameter Fine-Tuning of Large Language Models [20.5908375260123]
モデル性能を維持しながら計算効率のよい微調整を実現するために,様々なパラメータ効率の微調整技術が提案されている。
テンソル-トレイン分解によりトレーニング可能なパラメータを大幅に削減するフレームワークであるLoRETTAを提案する。
LoRETTAは、LLaMA-2-7Bモデルで最大100倍のパラメータで、最も広く使われているPEFT法よりも同等または優れた性能を実現している。
論文 参考訳(メタデータ) (2024-02-18T01:20:00Z) - Hyperparameter Optimization for Large Language Model Instruction-Tuning [6.743825167463901]
トレーニング済みLLMをブラックボックスとして微調整と検証を行うパイプライン全体について検討する。
本研究では,提案アルゴリズムを用いて高次パラメータの空間を効率的に探索し,チューニングモデルの性能向上と人為的アライメントを実現する。
論文 参考訳(メタデータ) (2023-12-01T22:03:12Z) - E^2VPT: An Effective and Efficient Approach for Visual Prompt Tuning [55.50908600818483]
新しいタスクのための微調整された大規模な事前学習型ビジョンモデルは、パラメーター集約化が進んでいる。
本稿では,大規模なトランスフォーマーモデル適応のための効果的かつ効率的なビジュアルプロンプトチューニング(E2VPT)手法を提案する。
提案手法は2つのベンチマークにおいて,最先端のベースラインを上回っている。
論文 参考訳(メタデータ) (2023-07-25T19:03:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。