論文の概要: Sketchy Moment Matching: Toward Fast and Provable Data Selection for Finetuning
- arxiv url: http://arxiv.org/abs/2407.06120v3
- Date: Sun, 17 Nov 2024 03:02:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-19 14:30:58.435632
- Title: Sketchy Moment Matching: Toward Fast and Provable Data Selection for Finetuning
- Title(参考訳): Sketchy Moment Matching: ファインタニングのための高速かつ予測可能なデータ選択を目指して
- Authors: Yijun Dong, Hoang Phan, Xiang Pan, Qi Lei,
- Abstract要約: 2段階のスケーラブルなデータ選択方式であるSketchy Moment Matching (SkMM)を紹介する。
第一に、バイアスは、情報的低次元部分空間に対する微調整パラメータ空間を探索する勾配スケッチを用いて制御される。
合成実験により分散バイアスバランスを向上し、実視タスクの微調整におけるSkMMの有効性を実証する。
- 参考スコア(独自算出の注目度): 22.25522398528441
- License:
- Abstract: We revisit data selection in a modern context of finetuning from a fundamental perspective. Extending the classical wisdom of variance minimization in low dimensions to high-dimensional finetuning, our generalization analysis unveils the importance of additionally reducing bias induced by low-rank approximation. Inspired by the variance-bias tradeoff in high dimensions from the theory, we introduce Sketchy Moment Matching (SkMM), a scalable data selection scheme with two stages. (i) First, the bias is controlled using gradient sketching that explores the finetuning parameter space for an informative low-dimensional subspace $\mathcal{S}$; (ii) then the variance is reduced over $\mathcal{S}$ via moment matching between the original and selected datasets. Theoretically, we show that gradient sketching is fast and provably accurate: selecting $n$ samples by reducing variance over $\mathcal{S}$ preserves the fast-rate generalization $O(\dim(\mathcal{S})/n)$, independent of the parameter dimension. Empirically, we concretize the variance-bias balance via synthetic experiments and demonstrate the effectiveness of SkMM for finetuning in real vision tasks.
- Abstract(参考訳): 基本的観点から、ファインタニングの現代的文脈でデータ選択を再考する。
低次元の分散最小化の古典的知恵を高次元の微調整に拡張することにより、一般化解析は低階近似によるバイアスの低減の重要性を明らかにする。
この理論から高次元の分散バイアストレードオフに着想を得て,2段階のスケーラブルなデータ選択方式であるSketchy Moment Matching(SkMM)を導入する。
(i)第一に、バイアスは、情報的低次元部分空間 $\mathcal{S}$; に対する微調整パラメータ空間を探索する勾配スケッチを用いて制御される。
(ii) 元のデータセットと選択したデータセットのモーメントマッチングにより$\mathcal{S}$に分散が減少する。
例えば、$\mathcal{S}$ の分散を減らして$n$サンプルを選択すると、パラメータ次元とは無関係に、高速レートの一般化 $O(\dim(\mathcal{S})/n)$ が保存される。
実験により, 分散バイアスバランスを合成実験により向上させ, 実視タスクの微調整におけるSkMMの有効性を実証した。
関連論文リスト
- Optimal Bias-Correction and Valid Inference in High-Dimensional Ridge Regression: A Closed-Form Solution [0.0]
寸法$p$がサンプルサイズ$n$より小さい場合、バイアスを効果的に補正するための反復戦略を導入する。
p>n$の場合、提案した非バイアス推定器の残余バイアスが到達不能であるようなバイアスを最適に緩和する。
本手法は,様々な分野にわたるリッジ回帰推論におけるバイアス問題に対する変換解を提供する。
論文 参考訳(メタデータ) (2024-05-01T10:05:19Z) - Transformers as Support Vector Machines [54.642793677472724]
自己アテンションの最適化幾何と厳密なSVM問題との間には,形式的等価性を確立する。
勾配降下に最適化された1層変圧器の暗黙バイアスを特徴付ける。
これらの発見は、最適なトークンを分離し選択するSVMの階層としてのトランスフォーマーの解釈を刺激していると信じている。
論文 参考訳(メタデータ) (2023-08-31T17:57:50Z) - Towards Faster Non-Asymptotic Convergence for Diffusion-Based Generative
Models [49.81937966106691]
我々は拡散モデルのデータ生成過程を理解するための非漸近理論のスイートを開発する。
従来の研究とは対照的に,本理論は基本的だが多目的な非漸近的アプローチに基づいて開発されている。
論文 参考訳(メタデータ) (2023-06-15T16:30:08Z) - Sketched Ridgeless Linear Regression: The Role of Downsampling [5.615701056715101]
スケッチしたリッジレス最小2乗推定器のサンプル外予測リスクを2つ検討した。
サンプル外予測リスクを最小限に抑える最適なスケッチサイズを同定する。
我々は解析を拡張し、中心極限定理と不特定モデルをカバーする。
論文 参考訳(メタデータ) (2023-02-02T13:21:09Z) - Sharper Rates and Flexible Framework for Nonconvex SGD with Client and
Data Sampling [64.31011847952006]
我々は、平均$n$スムーズでおそらくは非カラー関数のほぼ定常点を求める問題を再考する。
我々は$smallsfcolorgreen$を一般化し、事実上あらゆるサンプリングメカニズムで確実に動作するようにします。
我々は、スムーズな非カラー状態における最適境界の最も一般的な、最も正確な解析を提供する。
論文 参考訳(メタデータ) (2022-06-05T21:32:33Z) - Distributed Sketching for Randomized Optimization: Exact
Characterization, Concentration and Lower Bounds [54.51566432934556]
我々はヘシアンの形成が困難である問題に対する分散最適化法を検討する。
ランダム化されたスケッチを利用して、問題の次元を減らし、プライバシを保ち、非同期分散システムにおけるストラグラーレジリエンスを改善します。
論文 参考訳(メタデータ) (2022-03-18T05:49:13Z) - Distributed Sparse Regression via Penalization [5.990069843501885]
エージェントのネットワーク上の線形回帰を、(集中ノードを持たない)無向グラフとしてモデル化する。
推定問題は、局所的なLASSO損失関数の和とコンセンサス制約の2次ペナルティの最小化として定式化される。
本稿では, ペナル化問題に適用した近似勾配アルゴリズムが, 集中的な統計的誤差の順序の許容値まで線形に収束することを示す。
論文 参考訳(メタデータ) (2021-11-12T01:51:50Z) - Debiasing Distributed Second Order Optimization with Surrogate Sketching
and Scaled Regularization [101.5159744660701]
分散第2次最適化において、標準的な戦略は、データの小さなスケッチやバッチに基づいて、多くの局所的な見積もりを平均化することである。
本稿では,分散二階法における収束率の理論的および実証的改善を両立させるため,局所的な推定を嫌悪する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-07-02T18:08:14Z) - Balancing Rates and Variance via Adaptive Batch-Size for Stochastic
Optimization Problems [120.21685755278509]
本研究は,ステップサイズの減衰が正確な収束に必要であるという事実と,一定のステップサイズがエラーまでの時間でより速く学習するという事実のバランスをとることを目的とする。
ステップサイズのミニバッチを最初から修正するのではなく,パラメータを適応的に進化させることを提案する。
論文 参考訳(メタデータ) (2020-07-02T16:02:02Z) - A Precise High-Dimensional Asymptotic Theory for Boosting and
Minimum-$\ell_1$-Norm Interpolated Classifiers [3.167685495996986]
本稿では,分離可能なデータの強化に関する高精度な高次元理論を確立する。
統計モデルのクラスでは、ブースティングの普遍性誤差を正確に解析する。
また, 推力試験誤差と最適ベイズ誤差の関係を明示的に説明する。
論文 参考訳(メタデータ) (2020-02-05T00:24:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。