論文の概要: Sparsity Outperforms Low-Rank Projections in Few-Shot Adaptation
- arxiv url: http://arxiv.org/abs/2504.12436v1
- Date: Wed, 16 Apr 2025 19:10:34 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-26 02:40:48.89801
- Title: Sparsity Outperforms Low-Rank Projections in Few-Shot Adaptation
- Title(参考訳): Few-Shot Adaptationにおけるスポーサリティの低ランク投影性能
- Authors: Nairouz Mrabah, Nicolas Richet, Ismail Ben Ayed, Éric Granger,
- Abstract要約: ラベル付きサンプルがほとんどない新しいドメインにビジョンランゲージモデルを適用することは、過度なオーバーフィットと計算上の制約のため、課題である。
本稿では,ごく少数のパラメータを動的に調整する新しいスパース最適化フレームワークを提案する。
11の多様なデータセットの実験により、SOはメモリオーバーヘッドを低減しつつ、最先端の数発の適応性能を実現している。
- 参考スコア(独自算出の注目度): 14.086036250269613
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adapting Vision-Language Models (VLMs) to new domains with few labeled samples remains a significant challenge due to severe overfitting and computational constraints. State-of-the-art solutions, such as low-rank reparameterization, mitigate these issues but often struggle with generalization and require extensive hyperparameter tuning. In this paper, a novel Sparse Optimization (SO) framework is proposed. Unlike low-rank approaches that typically constrain updates to a fixed subspace, our SO method leverages high sparsity to dynamically adjust very few parameters. We introduce two key paradigms. First, we advocate for \textit{local sparsity and global density}, which updates a minimal subset of parameters per iteration while maintaining overall model expressiveness. As a second paradigm, we advocate for \textit{local randomness and global importance}, which sparsifies the gradient using random selection while pruning the first moment based on importance. This combination significantly mitigates overfitting and ensures stable adaptation in low-data regimes. Extensive experiments on 11 diverse datasets show that SO achieves state-of-the-art few-shot adaptation performance while reducing memory overhead.
- Abstract(参考訳): VLM(Vision-Language Models)をラベル付きサンプルの少ない新しいドメインに適用することは、過度なオーバーフィッティングと計算上の制約のため、依然として大きな課題である。
低ランクなパラメータ化のような最先端のソリューションは、これらの問題を緩和するが、一般化に苦慮し、広範なハイパーパラメータチューニングを必要とすることが多い。
本稿では,新しいスパース最適化(SO)フレームワークを提案する。
固定部分空間への更新を制約する低ランクなアプローチとは異なり、私たちのSOメソッドは、非常に少ないパラメータを動的に調整するために高い空間性を利用する。
2つの重要なパラダイムを紹介します。
まず、モデル全体の表現性を保ちながら、イテレーション毎にパラメータの最小限のサブセットを更新する、textit{local sparsity and global density} を提唱する。
第2のパラダイムとして、重要度に基づいて第1モーメントを刈り上げながら、ランダム選択を用いて勾配をばらばらにする「textit{local randomness and global importance}」を提唱する。
この組み合わせは、過度な適合を著しく軽減し、低データ体制における安定した適応を保証する。
11の多様なデータセットに対する大規模な実験により、SOはメモリオーバーヘッドを低減しつつ、最先端の少数ショット適応性能を実現している。
関連論文リスト
- Adaptive Additive Parameter Updates of Vision Transformers for Few-Shot Continual Learning [0.0]
FSCIL(Few-shot class incremental learning)は、最初にベースクラスの堅牢なデータセット上でモデルをトレーニングし、連続したセッションでそれを漸進的に適応することによって、この問題に対処する。
このアプローチは、制限された新しいデータに過度に適合する傾向があり、全体的なパフォーマンスを損なうとともに、忘れを悪化させる可能性がある。
パラメータ効率のよい加算更新を付加した凍結型ビジョントランスフォーマー(ViT)バックボーンを利用する新しいFSCILフレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-11T21:17:30Z) - FineGates: LLMs Finetuning with Compression using Stochastic Gates [7.093692674858257]
大規模言語モデル(LLM)は、高い計算要求のため、完全な微調整に重大な課題をもたらす。
低ランクのアダプタ層を学習するなど、軽量なファインタニング技術が提案されている。
本稿では,フリーズベースモデルとタスク固有適応を同時に分散するゲートに基づくアダプタモデルを提案する。
論文 参考訳(メタデータ) (2024-12-17T14:33:05Z) - ALoRE: Efficient Visual Adaptation via Aggregating Low Rank Experts [71.91042186338163]
ALoREは、Kroneckerによって構築された超複素パラメータ化空間をAggregate Low Rank Expertsに再利用する新しいPETL法である。
巧妙な設計のおかげで、ALoREは無視できる余分なパラメータを保持し、凍ったバックボーンに強制的にマージできる。
論文 参考訳(メタデータ) (2024-12-11T12:31:30Z) - SHERL: Synthesizing High Accuracy and Efficient Memory for Resource-Limited Transfer Learning [63.93193829913252]
本稿では,リソース制限シナリオに対するSHERLと呼ばれる革新的なMETL戦略を提案する。
初期経路では、中間出力は反冗長動作によって統合される。
遅延ルートでは、最小限の遅延事前トレーニングされたレイヤを利用することで、メモリオーバーヘッドのピーク需要を軽減できる。
論文 参考訳(メタデータ) (2024-07-10T10:22:35Z) - Scaling Exponents Across Parameterizations and Optimizers [94.54718325264218]
本稿では,先行研究における重要な仮定を考察し,パラメータ化の新たな視点を提案する。
私たちの経験的調査には、3つの組み合わせでトレーニングされた数万のモデルが含まれています。
最高の学習率のスケーリング基準は、以前の作業の仮定から除外されることがよくあります。
論文 参考訳(メタデータ) (2024-07-08T12:32:51Z) - Low-Rank Rescaled Vision Transformer Fine-Tuning: A Residual Design Approach [17.678759882763078]
事前訓練されたビジョントランスフォーマーの微調整は、下流のタスクにモデルを十分にカスタマイズすることを目的としている。
事前訓練されたモデルの一般化可能な表現能力を維持することと、タスク固有の特徴を取得することのバランスを取ることは重要な課題である。
本稿では,Residual-based Low-Rank Rescaling (RLRR)ファインチューニング戦略を提案する。
論文 参考訳(メタデータ) (2024-03-28T00:14:53Z) - A Closer Look at the Few-Shot Adaptation of Large Vision-Language Models [19.17722702457403]
現状のArtETLアプローチは、狭義の実験的な設定でのみ強力な性能を示すことを示す。
一般化されたラグランジアン法を適応させることにより,バランス項を最適化したCLAP(CLass-Adaptive linear Probe)の目的を提案する。
論文 参考訳(メタデータ) (2023-12-20T02:58:25Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Towards Efficient Vision-Language Tuning: More Information Density, More Generalizability [73.34532767873785]
本稿では,行列が特定の特徴空間に強く属しているかを示すために,情報密度(ID)の概念を提案する。
Dense Information Prompt (DIP)を導入し、情報密度を高め、一般化を改善する。
DIPは、調整可能なパラメータの数と必要なストレージスペースを大幅に減らし、リソース制約のある設定で特に有利になる。
論文 参考訳(メタデータ) (2023-12-17T20:42:43Z) - Large-scale Fully-Unsupervised Re-Identification [78.47108158030213]
大規模未ラベルデータから学ぶための2つの戦略を提案する。
第1の戦略は、近傍関係に違反することなく、それぞれのデータセットサイズを減らすために、局所的な近傍サンプリングを行う。
第2の戦略は、低時間上限の複雑さを持ち、メモリの複雑さを O(n2) から O(kn) に k n で還元する新しい再帰的手法を利用する。
論文 参考訳(メタデータ) (2023-07-26T16:19:19Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - STORM+: Fully Adaptive SGD with Momentum for Nonconvex Optimization [74.1615979057429]
本研究では,スムーズな損失関数に対する期待値である非バッチ最適化問題について検討する。
我々の研究は、学習率と運動量パラメータを適応的に設定する新しいアプローチとともに、STORMアルゴリズムの上に構築されている。
論文 参考訳(メタデータ) (2021-11-01T15:43:36Z) - Optimizing generalization on the train set: a novel gradient-based
framework to train parameters and hyperparameters simultaneously [0.0]
一般化は機械学習における中心的な問題である。
本稿では,新たなリスク尺度に基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2020-06-11T18:04:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。