論文の概要: SliceFine: The Universal Winning-Slice Hypothesis for Pretrained Networks
- arxiv url: http://arxiv.org/abs/2510.08513v1
- Date: Thu, 09 Oct 2025 17:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-10 17:54:15.265908
- Title: SliceFine: The Universal Winning-Slice Hypothesis for Pretrained Networks
- Title(参考訳): SliceFine: トレーニング済みネットワークのユニバーサル・ウィンニング・スライス仮説
- Authors: Md Kowsher, Ali O. Polat, Ehsan Mohammady Ardehaly, Mehrdad Salehi, Zia Ghiasi, Prasanth Murali, Chen Chen,
- Abstract要約: 本稿では,事前学習モデルにおいて,小型でランダムに選択されたスライス(スライス)の微調整が下流適応に十分である理由を説明する理論的枠組みを提案する。
SliceFineというPEFT法は,本手法に着想を得て,従来のウェイトから選択したスライスのみを更新する手法を提案する。
我々の研究は理論と実践を橋渡しし、理論上は既存のPEFT技術に代わる代替手段を提供する。
- 参考スコア(独自算出の注目度): 6.631739359047658
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents a theoretical framework explaining why fine tuning small, randomly selected subnetworks (slices) within pre trained models can be sufficient for downstream adaptation. We prove that pretrained networks exhibit a universal winning slice property arising from two phenomena: (1) spectral balance the eigenspectra of different weight matrix slices are remarkably similar; and (2) high task energy their backbone representations retain rich, task relevant features. This leads to the Universal Winning Slice Hypothesis, which provides a theoretical foundation for parameter efficient fine tuning (PEFT) in large scale models. Inspired by this, we propose SliceFine, a PEFT method that exploits this inherent redundancy by updating only selected slices of the original weights introducing zero new parameters, unlike adapter-based approaches. Empirically, SliceFine matches the performance of state of the art PEFT methods across language and vision tasks, while significantly improving training speed, memory efficiency, and model compactness. Our work bridges theory and practice, offering a theoretically grounded alternative to existing PEFT techniques.
- Abstract(参考訳): 本稿では, 事前訓練されたモデルにおいて, 小型でランダムに選択されたサブネットワーク(スライス)の微調整が, 下流適応に十分であることを示す理論的枠組みを提案する。
既訓練ネットワークは,(1)異なる重み行列スライスの固有スペクトルのスペクトルバランスが著しく類似していること,(2)背骨表現がリッチでタスクに関連する特徴を保っていること,の2つの現象から生じる普遍的な勝利スライス特性を示す。
これは、大規模モデルにおけるパラメータ効率の良い微調整(PEFT)の理論基盤を提供するユニバーサル・ウィンニング・スライス仮説につながる。
この手法に着想を得たSliceFineは、アダプタベースのアプローチとは異なり、元のウェイトから選択したスライスのみを更新することで、この固有の冗長性を利用する。
経験的に、SliceFineは言語や視覚タスクにまたがって最先端のPEFTメソッドのパフォーマンスにマッチすると同時に、トレーニング速度、メモリ効率、モデルコンパクト性を大幅に改善する。
我々の研究は理論と実践を橋渡しし、理論上は既存のPEFT技術に代わる代替手段を提供する。
関連論文リスト
- TeRA: Vector-based Random Tensor Network for High-Rank Adaptation of Large Language Models [6.968486021891596]
ベクトルベースでランダムなアンダーラインセンタbfTensorネットワークを,高アンダーラインセンタbfRankアンダーラインセンタbfAdaptation (TeRA) に提案する。
これは、テンソル化重み更新行列をタッカー様テンソルネットワーク(TN)としてパラメータ化することで達成される。
実験により、TeRAはベクトルベースの手法と同様のトレーニング可能なパラメータ数を必要としながら、上位アダプタにマッチし、さらに性能も向上することが示された。
論文 参考訳(メタデータ) (2025-09-03T11:46:24Z) - Efficient Orthogonal Fine-Tuning with Principal Subspace Adaptation [43.719298075378425]
パラメータ効率の良いファインチューニングのための主部分空間適応(PSOFT)を用いたオルソゴンファインチューニングを提案する。
35のNLPタスクとCVタスクの実験により、PEFTにおける意味保存、表現性、多次元効率を同時に達成するために、PSOFTは実用的でスケーラブルなソリューションを提供することが示された。
論文 参考訳(メタデータ) (2025-05-16T13:26:48Z) - Preserving Pre-trained Representation Space: On Effectiveness of Prefix-tuning for Large Multi-modal Models [24.62337386603331]
大規模マルチモーダルモデル(LMM)は、機械が世界と対話する方法に革命をもたらしている。
下流タスクにLMMを適用するために,パラメータ効率細調整(PEFT)が普及している。
本稿では,各チューニング戦略の長所と短所に着目し,これらのアプローチに典型的な効率性から焦点を移す。
論文 参考訳(メタデータ) (2024-10-29T07:55:50Z) - PYRA: Parallel Yielding Re-Activation for Training-Inference Efficient Task Adaptation [61.57833648734164]
本稿では, PYRA(Parallel Yielding Re-Activation)法を提案する。
PYRAは低圧縮率と高圧縮率の両方で競合する全ての手法より優れている。
論文 参考訳(メタデータ) (2024-03-14T09:06:49Z) - Vertical Layering of Quantized Neural Networks for Heterogeneous
Inference [57.42762335081385]
量子化モデル全体を1つのモデルにカプセル化するための,ニューラルネットワーク重みの新しい垂直層表現について検討する。
理論的には、1つのモデルのトレーニングとメンテナンスのみを必要としながら、オンデマンドサービスの正確なネットワークを達成できます。
論文 参考訳(メタデータ) (2022-12-10T15:57:38Z) - Slimmable Networks for Contrastive Self-supervised Learning [69.9454691873866]
自己教師付き学習は、大規模なモデルを事前訓練する上で大きな進歩を遂げるが、小さなモデルでは苦労する。
追加の教師を必要とせず、訓練済みの小型モデルを得るための1段階のソリューションも導入する。
スリム化可能なネットワークは、完全なネットワークと、様々なネットワークを得るために一度にトレーニングできるいくつかの重み共有サブネットワークから構成される。
論文 参考訳(メタデータ) (2022-09-30T15:15:05Z) - HALO: Learning to Prune Neural Networks with Shrinkage [5.283963846188862]
ディープニューラルネットワークは、構造化されていないデータから豊富な特徴セットを抽出することにより、さまざまなタスクで最先端のパフォーマンスを実現する。
提案手法は,(1)ネットワークプルーニング,(2)スパシティ誘導ペナルティによるトレーニング,(3)ネットワークの重みと連動してバイナリマスクをトレーニングすることである。
トレーニング可能なパラメータを用いて、与えられたネットワークの重みを適応的に分散化することを学ぶ階層適応ラッソ(Hierarchical Adaptive Lasso)という新しいペナルティを提案する。
論文 参考訳(メタデータ) (2020-08-24T04:08:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。