論文の概要: Universality in Transfer Learning for Linear Models
- arxiv url: http://arxiv.org/abs/2410.02164v2
- Date: Sun, 23 Feb 2025 21:45:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:50:03.676912
- Title: Universality in Transfer Learning for Linear Models
- Title(参考訳): 線形モデルの伝達学習における普遍性
- Authors: Reza Ghane, Danil Akhtiamov, Babak Hassibi,
- Abstract要約: 本稿では,回帰モデルと二分分類モデルの両方において,伝達学習と微調整の問題について検討する。
特に,事前訓練した重み付き線形モデル上での勾配降下(SGD)の利用と,目標分布から設定した小さなトレーニングデータセットについて検討する。
- 参考スコア(独自算出の注目度): 18.427215139020625
- License:
- Abstract: We study the problem of transfer learning and fine-tuning in linear models for both regression and binary classification. In particular, we consider the use of stochastic gradient descent (SGD) on a linear model initialized with pretrained weights and using a small training data set from the target distribution. In the asymptotic regime of large models, we provide an exact and rigorous analysis and relate the generalization errors (in regression) and classification errors (in binary classification) for the pretrained and fine-tuned models. In particular, we give conditions under which the fine-tuned model outperforms the pretrained one. An important aspect of our work is that all the results are "universal", in the sense that they depend only on the first and second order statistics of the target distribution. They thus extend well beyond the standard Gaussian assumptions commonly made in the literature. Furthermore, our universality results extend beyond standard SGD training to the test error of a classification task trained using a ridge regression.
- Abstract(参考訳): 本稿では,回帰モデルと二分分類モデルの両方において,伝達学習と微調整の問題について検討する。
特に,事前学習した重みを初期化した線形モデル上での確率勾配勾配(SGD)の利用と,対象分布から設定した小さなトレーニングデータセットについて検討する。
大規模モデルの漸近的状態においては、厳密かつ厳密な解析を行い、事前訓練されたモデルと微調整されたモデルに対する一般化誤差(回帰)と分類誤差(二分分類)を関連付ける。
特に、微調整されたモデルが事前訓練されたモデルよりも優れる条件を与える。
我々の研究の重要な側面は、全ての結果が「普遍的」であり、それらは対象分布の1階と2階の統計にのみ依存しているという点である。
したがって、それらは文学で一般的になされる標準ガウスの仮定をはるかに超えている。
さらに、我々の普遍性は、標準SGDトレーニングを超えて、リッジ回帰を用いて訓練された分類タスクのテストエラーにまで及んでいる。
関連論文リスト
- Rate of Model Collapse in Recursive Training [13.722324504719282]
最適確率(MLか近距離ML)推定の下で、よく研究された分布族に対して、モデル崩壊がどれだけ早く起こるかを問う。
驚くべきことに、離散分布やガウス分布のような基本的な分布であっても、モデル崩壊の正確な速度は不明である。
その結果,単語を忘れる時間は,元のコーパスで発生した回数にほぼ線形に依存していることがわかった。
論文 参考訳(メタデータ) (2024-12-23T15:21:50Z) - Ask Your Distribution Shift if Pre-Training is Right for You [67.90850628695563]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - Adaptive Distribution Calibration for Few-Shot Learning with
Hierarchical Optimal Transport [78.9167477093745]
本稿では,新しいサンプルとベースクラス間の適応重み行列を学習し,新しい分布校正法を提案する。
標準ベンチマーク実験の結果,提案したプラグ・アンド・プレイモデルの方が競合する手法より優れていることが示された。
論文 参考訳(メタデータ) (2022-10-09T02:32:57Z) - Learning from aggregated data with a maximum entropy model [73.63512438583375]
我々は,観測されていない特徴分布を最大エントロピー仮説で近似することにより,ロジスティック回帰と類似した新しいモデルが,集約データからのみ学習されることを示す。
我々は、この方法で学習したモデルが、完全な非凝集データでトレーニングされたロジスティックモデルに匹敵するパフォーマンスを達成することができるという、いくつかの公開データセットに関する実証的な証拠を提示する。
論文 参考訳(メタデータ) (2022-10-05T09:17:27Z) - Revisiting the Updates of a Pre-trained Model for Few-shot Learning [11.871523410051527]
我々は2つの人気のある更新手法、微調整と線形探索を比較した。
試料数の増加に伴い, 微調整は線形探索より優れていることがわかった。
論文 参考訳(メタデータ) (2022-05-13T08:47:06Z) - How to Learn when Data Gradually Reacts to Your Model [10.074466859579571]
我々は,これらの効果が存在する場合でも,性能損失を最小限に抑えるための新しいアルゴリズム Stateful Performative Gradient Descent (Stateful PerfGD) を提案する。
実験の結果, Stateful PerfGD は従来の最先端手法よりもかなり優れていたことが確認された。
論文 参考訳(メタデータ) (2021-12-13T22:05:26Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Why do classifier accuracies show linear trends under distribution
shift? [58.40438263312526]
あるデータ分布上のモデルの精度は、別の分布上の精度のほぼ線形関数である。
2つのモデルが予測で一致する確率は、精度レベルだけで推測できるものよりも高いと仮定します。
分布シフトの大きさが大きければ, 2 つの分布のモデルを評価する場合, 線形傾向が生じなければならない。
論文 参考訳(メタデータ) (2020-12-31T07:24:30Z) - Testing for Typicality with Respect to an Ensemble of Learned
Distributions [5.850572971372637]
適合性のよい問題に対する一サンプルのアプローチは、オンラインテストに多大な計算上の利点をもたらす。
この設定において異常データを正しく否定する能力は、ベース分布のモデルの精度に依存する。
既成の正当性問題に対する既存の手法は、基底分布のモデルが学習されたという事実を考慮に入れない。
本稿では,アンサンブルの任意の構成員に対して,データが異常であれば異常データとなることを考慮し,密度モデルのアンサンブルを訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-11T19:47:46Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。