論文の概要: A Theoretical Analysis of Fine-tuning with Linear Teachers
- arxiv url: http://arxiv.org/abs/2107.01641v1
- Date: Sun, 4 Jul 2021 14:15:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-07-06 14:54:09.421132
- Title: A Theoretical Analysis of Fine-tuning with Linear Teachers
- Title(参考訳): リニア教師による微調整の理論解析
- Authors: Gal Shachaf, Alon Brutzkus, Amir Globerson
- Abstract要約: ファインチューニングはディープラーニングにおいて一般的なプラクティスであり、比較的少ないトレーニングデータを使用して下流タスクで優れた結果を得ることができる。
微調整の成功は、ソースタスクと対象タスクの類似性に依存するが、測定は自明ではない。
- 参考スコア(独自算出の注目度): 31.849269592822296
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Fine-tuning is a common practice in deep learning, achieving excellent
generalization results on downstream tasks using relatively little training
data. Although widely used in practice, it is lacking strong theoretical
understanding. We analyze the sample complexity of this scheme for regression
with linear teachers in several architectures. Intuitively, the success of
fine-tuning depends on the similarity between the source tasks and the target
task, however measuring it is non trivial. We show that a relevant measure
considers the relation between the source task, the target task and the
covariance structure of the target data. In the setting of linear regression,
we show that under realistic settings a substantial sample complexity reduction
is plausible when the above measure is low. For deep linear regression, we
present a novel result regarding the inductive bias of gradient-based training
when the network is initialized with pretrained weights. Using this result we
show that the similarity measure for this setting is also affected by the depth
of the network. We further present results on shallow ReLU models, and analyze
the dependence of sample complexity there on source and target tasks. We
empirically demonstrate our results for both synthetic and realistic data.
- Abstract(参考訳): ファインチューニングはディープラーニングにおいて一般的なプラクティスであり、比較的少ないトレーニングデータを用いて下流タスクの優れた一般化結果を達成する。
実際には広く使われているが、理論的な理解は乏しい。
いくつかのアーキテクチャにおける線形教師による回帰手法のサンプル複雑性を解析する。
直感的には、微調整の成功は、ソースタスクとターゲットタスクの類似性に依存するが、測定は自明ではない。
本稿では,対象データのソースタスク,対象タスク,共分散構造との関係について考察する。
線形回帰の設定では, 実測値が低い場合, 実測条件下では, 実質的なサンプルの複雑性低減が可能であることを示す。
深部線形回帰では,ネットワークが事前学習した重みで初期化されるとき,勾配に基づくトレーニングの誘導バイアスに関する新しい結果を示す。
この結果を用いて,この設定の類似度尺度はネットワークの深さにも影響することを示した。
さらに、浅いReLUモデルに関する結果を示し、ソースおよびターゲットタスクにおけるサンプルの複雑さの依存性を分析する。
合成データと現実データの両方について実験的に結果を示す。
関連論文リスト
- Features are fate: a theory of transfer learning in high-dimensional regression [23.840251319669907]
対象タスクが事前学習されたモデルの特徴空間で適切に表現されている場合、転送学習はスクラッチからトレーニングに優れることを示す。
本モデルでは, 音源と目標タスクの重なり合う特徴空間が十分に強い場合, 線形転送と微調整の両方で性能が向上することを確認した。
論文 参考訳(メタデータ) (2024-10-10T17:58:26Z) - Simplicity bias and optimization threshold in two-layer ReLU networks [24.43739371803548]
過度なパラメータ化にもかかわらず、ネットワークはトレーニングデータを補間するのではなく、より単純な解へと収束することを示す。
我々の分析は、ニューロンが特定の方向に向かっているいわゆる早期アライメントフェーズに依存しています。
論文 参考訳(メタデータ) (2024-10-03T09:58:57Z) - Understanding Forgetting in Continual Learning with Linear Regression [21.8755265936716]
連続的な学習は、複数のタスクを逐次学習することに焦点を当てており、近年大きな注目を集めている。
線形回帰モデルにおいて, 線形回帰モデルをグラディエント・ディッセンス(Gradient Descent)を用いて, 忘れることの一般的な理論的解析を行う。
十分なデータサイズを考慮に入れれば、集団データ共分散行列の固有値が大きいタスクが後で訓練されるようなシーケンス内のタスクの配置は、忘れが増す傾向にあることを実証する。
論文 参考訳(メタデータ) (2024-05-27T18:33:37Z) - Theoretical Characterization of the Generalization Performance of
Overfitted Meta-Learning [70.52689048213398]
本稿では,ガウス的特徴を持つ線形回帰モデルの下で,過剰適合型メタラーニングの性能について検討する。
シングルタスク線形回帰には存在しない新しい興味深い性質が見つかる。
本分析は,各訓練課題における基礎的真理のノイズや多様性・変動が大きい場合には,良心過剰がより重要かつ容易に観察できることを示唆する。
論文 参考訳(メタデータ) (2023-04-09T20:36:13Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Training trajectories, mini-batch losses and the curious role of the
learning rate [13.848916053916618]
検証された勾配勾配勾配は、ディープラーニングのほぼすべての応用において、基本的な役割を担っていることを示す。
本稿では,ミニバッチの勾配と全バッチの関係を解析する簡単なモデルと幾何学的解釈を提案する。
特に、非常に低い損失値は、十分な学習率で1段階の降下に到達することができる。
論文 参考訳(メタデータ) (2023-01-05T21:58:46Z) - An Information-Theoretic Framework for Supervised Learning [22.280001450122175]
後悔とサンプルの複雑さという独自の概念を持つ新しい情報理論フレームワークを提案する。
本稿では、ReLUアクティベーションユニットを用いたディープニューラルネットワークによって生成されたデータから学習する際のサンプルの複雑さについて検討する。
我々は、ランダムな単層ニューラルネットワークの実験的な解析により、理論結果を裏付けることで結論付ける。
論文 参考訳(メタデータ) (2022-03-01T05:58:28Z) - Deep learning: a statistical viewpoint [120.94133818355645]
ディープラーニングは、理論的観点からいくつかの大きな驚きを明らかにしました。
特に、簡単な勾配法は、最適でないトレーニング問題に対するほぼ完全な解決策を簡単に見つけます。
我々はこれらの現象を具体的原理で補うと推測する。
論文 参考訳(メタデータ) (2021-03-16T16:26:36Z) - Estimating informativeness of samples with Smooth Unique Information [108.25192785062367]
サンプルが最終的な重みを知らせる量と、重みによって計算される関数を知らせる量を測定します。
線形化ネットワークを用いてこれらの量の効率的な近似を行う。
本稿では,データセットの要約など,いくつかの問題に適用する。
論文 参考訳(メタデータ) (2021-01-17T10:29:29Z) - Relation-Guided Representation Learning [53.60351496449232]
本稿では,サンプル関係を明示的にモデル化し,活用する表現学習手法を提案する。
私たちのフレームワークは、サンプル間の関係をよく保存します。
サンプルをサブスペースに埋め込むことにより,本手法が大規模なサンプル外問題に対処可能であることを示す。
論文 参考訳(メタデータ) (2020-07-11T10:57:45Z) - Understanding the Effects of Data Parallelism and Sparsity on Neural
Network Training [126.49572353148262]
ニューラルネットワークトレーニングにおける2つの要因として,データ並列性と疎性について検討する。
有望なメリットにもかかわらず、ニューラルネットワークトレーニングに対する彼らの影響を理解することは、依然として明白である。
論文 参考訳(メタデータ) (2020-03-25T10:49:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。