論文の概要: Understanding Pre-training and Fine-tuning from Loss Landscape Perspectives
- arxiv url: http://arxiv.org/abs/2505.17646v1
- Date: Fri, 23 May 2025 09:06:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-26 18:08:33.947627
- Title: Understanding Pre-training and Fine-tuning from Loss Landscape Perspectives
- Title(参考訳): 失われた景観から見た事前学習と微調整の理解
- Authors: Huanran Chen, Yinpeng Dong, Zeming Wei, Yao Huang, Yichi Zhang, Hang Su, Jun Zhu,
- Abstract要約: 事前学習によって「基本能力」の盆地が作り出され、その後の微調整によって「特殊能力」の盆地が生まれる。
最上級の景観(すなわち、ほとんどの方向に沿った風景)と最悪の景観(すなわち、最悪の方向に沿った風景)の2つのタイプの損失景観について検討する。
- 参考スコア(独自算出の注目度): 41.198324363256525
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent studies have revealed that the loss landscape of large language models resembles a basin, within which the models perform nearly identically, and outside of which they lose all their capabilities. In this work, we conduct further studies on the loss landscape of large language models. We discover that pre-training creates a "basic capability" basin, and subsequent fine-tuning creates "specific capability" basins (e.g., math, safety, coding) within the basic capability basin. We further investigate two types of loss landscapes: the most-case landscape (i.e., the landscape along most directions) and the worst-case landscape (i.e., the landscape along the worst direction). We argue that as long as benign fine-tuning remains within the most-case basin, it will not compromise previous capabilities. Similarly, any fine-tuning (including the adversarial one) that stays within the worst-case basin would not compromise previous capabilities. Finally, we theoretically demonstrate that the size of the most-case basin can bound the size of the worst-case basin and the robustness with respect to input perturbations. We also show that, due to the over-parameterization property of current large language models, one can easily enlarge the basins by five times.
- Abstract(参考訳): 近年の研究では、大きな言語モデルの損失景観が流域に似ており、その内部ではモデルがほぼ同一に機能し、その外では全ての能力を失うことが示されている。
本研究では,大規模言語モデルの損失景観についてさらなる研究を行う。
事前学習によって基本能力盆地が生成され,その後の微調整によって基本能力盆地内に「特殊能力」盆地(数学,安全,コーディングなど)が形成される。
さらに、最も大きな風景(すなわち、ほとんどの方向に沿った風景)と最悪の景観(すなわち、最悪の方向に沿った風景)の2つのタイプの損失景観について検討する。
我々は、良心的な微調整が最上級の盆地に留まる限り、以前の能力を損なうことはないと論じている。
同様に、最悪のケースの盆地に留まる微調整(敵を含む)は、以前の能力を損なうことはない。
最後に, 最大ケース盆地の大きさが, 入力摂動に対する最悪のケース盆地の大きさとロバスト性とを束縛できることを理論的に証明する。
また,現在の大規模言語モデルの過度パラメータ化特性から,流域を5倍に拡大できることが示唆された。
関連論文リスト
- Depth Anything V2 [84.88796880335283]
V2は3つの重要なプラクティスを通じて、より微細でより堅牢な深度予測を生成する。
すべてのラベル付き実像を合成画像に置き換え、教師モデルの容量を拡大し、大規模な擬似ラベル付き実像のブリッジを通じて生徒モデルを教える。
その強い一般化能力から、距離深度モデルを得るために、距離深度ラベルを微調整する。
論文 参考訳(メタデータ) (2024-06-13T17:59:56Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Fine-tuning can cripple your foundation model; preserving features may be the solution [87.35911633187204]
タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。
我々は、下流タスクに関連する新しい概念を学習しながら、モデルが事前学習した知識を保存できる「textitLDIFS$」という新しい微調整手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T11:49:51Z) - Can we avoid Double Descent in Deep Neural Networks? [3.1473798197405944]
二重降下は、ディープラーニングコミュニティの注目を集めている。
これは、高一般化を維持するために最適なモデルのサイズについて深刻な疑問を提起する。
本研究は, 学習問題の適切な条件付けにより, 二重降下現象は回避可能であることを示す。
論文 参考訳(メタデータ) (2023-02-26T08:12:28Z) - An evaluation of deep learning models for predicting water depth
evolution in urban floods [59.31940764426359]
高空間分解能水深予測のための異なる深層学習モデルの比較を行った。
深層学習モデルはCADDIESセル-オートマタフラッドモデルによってシミュレーションされたデータを再現するために訓練される。
その結果,ディープラーニングモデルでは,他の手法に比べて誤差が低いことがわかった。
論文 参考訳(メタデータ) (2023-02-20T16:08:54Z) - Likelihood Landscapes: A Unifying Principle Behind Many Adversarial
Defenses [15.629921195632857]
本研究では,防御技術が地形形状に与える影響について検討する。
敵防衛技術のサブセットは、可能性の景観を平らにする同様の効果をもたらす。
論文 参考訳(メタデータ) (2020-08-25T22:51:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。