Fugu-MT 論文翻訳(概要): A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning

論文の概要: A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning

arxiv url: http://arxiv.org/abs/2602.20062v1
Date: Mon, 23 Feb 2026 17:19:33 GMT
ステータス: 翻訳完了
システム内更新日: 2026-02-24 17:42:02.921896
Title: A Theory of How Pretraining Shapes Inductive Bias in Fine-Tuning
Title（参考訳）: ファインチューニングにおける形状インダクティブバイアスの事前学習に関する一理論
Authors: Nicolas Anguita, Francesco Locatello, Andrew M. Saxe, Marco Mondelli, Flavia Mancini, Samuel Lippl, Clementine Domine,
Abstract要約: 我々は, 対角線ネットワークにおけるプレトレーニングファインチューニングパイプラインの解析理論を開発した。異なる初期化選択により、ネットワークは4つの異なる微調整レジームに分類される。以前の階層の縮小により、ネットワークは機能の再利用と洗練を両立することができ、より優れた一般化を実現している。
参考スコア（独自算出の注目度）: 51.505728136705564
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Pretraining and fine-tuning are central stages in modern machine learning systems. In practice, feature learning plays an important role across both stages: deep neural networks learn a broad range of useful features during pretraining and further refine those features during fine-tuning. However, an end-to-end theoretical understanding of how choices of initialization impact the ability to reuse and refine features during fine-tuning has remained elusive. Here we develop an analytical theory of the pretraining-fine-tuning pipeline in diagonal linear networks, deriving exact expressions for the generalization error as a function of initialization parameters and task statistics. We find that different initialization choices place the network into four distinct fine-tuning regimes that are distinguished by their ability to support feature learning and reuse, and therefore by the task statistics for which they are beneficial. In particular, a smaller initialization scale in earlier layers enables the network to both reuse and refine its features, leading to superior generalization on fine-tuning tasks that rely on a subset of pretraining features. We demonstrate empirically that the same initialization parameters impact generalization in nonlinear networks trained on CIFAR-100. Overall, our results demonstrate analytically how data and network initialization interact to shape fine-tuning generalization, highlighting an important role for the relative scale of initialization across different layers in enabling continued feature learning during fine-tuning.
Abstract（参考訳）: プレトレーニングと微調整は、現代の機械学習システムにおける中心的な段階である。ディープニューラルネットワークは、事前トレーニング中に幅広い有用な特徴を学習し、微調整中にこれらの特徴をさらに洗練する。しかし、初期化の選択が微調整中に機能を再利用し洗練する能力にどのように影響するかというエンドツーエンドの理論的理解は、いまだ解明されていない。ここでは、初期化パラメータとタスク統計量の関数として一般化誤差の正確な式を導出した対角線ネットワークにおける事前学習微調整パイプラインの解析理論を開発する。異なる初期化選択は、ネットワークを特徴学習と再利用を支援する能力と、それらが有益であるタスク統計によって区別される4つの異なる微調整体制に分類する。特に、以前のレイヤでのより小さな初期化スケールにより、ネットワークはその機能の再利用と洗練の両方が可能となり、事前訓練された機能のサブセットに依存する微調整タスクのより優れた一般化につながった。我々は、CIFAR-100で訓練された非線形ネットワークにおいて、同じ初期化パラメータが一般化に影響を与えることを実証的に示す。全体として,データとネットワークの初期化がどのように相互作用して微調整の一般化を形作るのかを解析的に明らかにし,微調整中の継続的な特徴学習を可能にするために,各層にまたがる初期化の相対スケールにおいて重要な役割を担っている。

関連論文リスト

Neural network initialization with nonlinear characteristics and information on spectral bias [0.0]
重みやバイアスなどのニューラルネットワークパラメータの初期化は、学習のパフォーマンスに決定的な影響を及ぼす。本稿では、SWIMアルゴリズムのスケール係数を調整し、初期隠蔽層内の低周波成分を捕捉するフレームワークを提案する。
論文参考訳（メタデータ） (2025-11-04T04:15:32Z)
Characterising the Inductive Biases of Neural Networks on Boolean Data [0.46180371154032906]
我々は,ネットワークの帰納的先行性,特徴学習を含むトレーニングダイナミクス,そしてその最終的な一般化を結びつける,エンドツーエンドで解析的に抽出可能なケーススタディを提供する。モンテカルロ学習アルゴリズムでは,予測可能な学習力学と解釈可能な特徴の出現を示す。
論文参考訳（メタデータ） (2025-05-29T23:03:33Z)
When Bias Helps Learning: Bridging Initial Prejudice and Trainability [3.9146761527401424]
平均場解析(MF)は、ランダムネットワークにおけるパラメータ分布が勾配が消滅するか爆発するかを決定することを示した。近年の研究では、入力空間の広い領域を1つのクラスに割り当てるIGB(initial-guessing bias)が示されている。 IGB と MF 分析をリンクする理論的証明を行い、特定のクラスに対するネットワーク前処理が、効率的に学習するための条件に本質的に結びついていることを確認する。
論文参考訳（メタデータ） (2025-05-17T17:31:56Z)
Where You Place the Norm Matters: From Prejudiced to Neutral Initializations [5.070645558119592]
バッチ正規化(Batch Normalization)やレイヤ正規化(Layer Normalization)といった正規化レイヤは、現代のニューラルネットワークの中心的なコンポーネントである。本研究では,隠れ層内の正規化の存在と配置が,学習開始前のネットワーク予測の統計的特性に与える影響について検討する。我々の研究は、正規化が早期訓練行動にどのように影響するかを原則的に理解し、より制御され、解釈可能なネットワーク設計のためのガイダンスを提供する。
論文参考訳（メタデータ） (2025-05-16T14:38:30Z)
Global Convergence and Rich Feature Learning in $L$-Layer Infinite-Width Neural Networks under $μ$P Parametrization [66.03821840425539]
本稿では, テンソル勾配プログラム(SGD)フレームワークを用いた$L$層ニューラルネットワークのトレーニング力学について検討する。 SGDにより、これらのネットワークが初期値から大きく逸脱する線形独立な特徴を学習できることを示す。このリッチな特徴空間は、関連するデータ情報をキャプチャし、トレーニングプロセスの収束点が世界最小であることを保証する。
論文参考訳（メタデータ） (2025-03-12T17:33:13Z)
Rethinking Resource Management in Edge Learning: A Joint Pre-training and Fine-tuning Design Paradigm [87.47506806135746]
一部のアプリケーションでは、エッジラーニングは、スクラッチから新しい2段階ラーニングへと焦点を移している。本稿では,2段階のエッジ学習システムにおける共同コミュニケーションと計算資源管理の問題について考察する。事前学習および微調整段階に対する共同資源管理の提案は,システム性能のトレードオフをうまくバランスさせることが示されている。
論文参考訳（メタデータ） (2024-04-01T00:21:11Z)
On the Generalization Ability of Unsupervised Pretraining [53.06175754026037]
教師なし学習の最近の進歩は、教師なし事前学習、および微調整がモデル一般化を改善することを示している。本稿では、教師なし事前学習中に得られた知識の伝達可能性に影響を及ぼす重要な要因をその後の微調整フェーズに照らす新しい理論的枠組みを提案する。この結果は教師なし事前学習と微調整のパラダイムの理解を深め、より効果的な事前学習アルゴリズムの設計に光を当てることができる。
論文参考訳（メタデータ） (2024-03-11T16:23:42Z)
Initial Guessing Bias: How Untrained Networks Favor Some Classes [0.09103230894909536]
深層ニューラルネットワーク(DNN)の構造は、トレーニング開始前であっても、全ての予測を同じクラスに割り当てるようにモデルを条件付けることができることを示す。この現象の存在は,データセット前処理手法を含むモデル選択の影響を受けていることを実証する。ノード置換対称性の分解や自己回避の違反など理論的な結果を強調した。
論文参考訳（メタデータ） (2023-06-01T15:37:32Z)
Neural networks trained with SGD learn distributions of increasing complexity [78.30235086565388]
勾配降下法を用いてトレーニングされたニューラルネットワークは、まず低次入力統計を用いて入力を分類する。その後、トレーニング中にのみ高次の統計を利用する。本稿では,DSBと他の単純度バイアスとの関係について論じ,学習における普遍性の原理にその意味を考察する。
論文参考訳（メタデータ） (2022-11-21T15:27:22Z)
Subquadratic Overparameterization for Shallow Neural Networks [60.721751363271146]
私たちは、標準的なニューラルトレーニング戦略を採用することができる分析フレームワークを提供しています。我々は、Desiderata viaak-Lojasiewicz, smoothness, and standard assumptionsを達成する。
論文参考訳（メタデータ） (2021-11-02T20:24:01Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。