Fugu-MT 論文翻訳(概要): Understanding Pre-training and Fine-tuning from Loss Landscape Perspectives

論文の概要: Understanding Pre-training and Fine-tuning from Loss Landscape Perspectives

arxiv url: http://arxiv.org/abs/2505.17646v1
Date: Fri, 23 May 2025 09:06:40 GMT
ステータス: 翻訳完了
システム内更新日: 2025-05-26 18:08:33.947627
Title: Understanding Pre-training and Fine-tuning from Loss Landscape Perspectives
Title（参考訳）: 失われた景観から見た事前学習と微調整の理解
Authors: Huanran Chen, Yinpeng Dong, Zeming Wei, Yao Huang, Yichi Zhang, Hang Su, Jun Zhu,
Abstract要約: 事前学習によって「基本能力」の盆地が作り出され、その後の微調整によって「特殊能力」の盆地が生まれる。最上級の景観(すなわち、ほとんどの方向に沿った風景)と最悪の景観(すなわち、最悪の方向に沿った風景)の2つのタイプの損失景観について検討する。
参考スコア（独自算出の注目度）: 41.198324363256525
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent studies have revealed that the loss landscape of large language models resembles a basin, within which the models perform nearly identically, and outside of which they lose all their capabilities. In this work, we conduct further studies on the loss landscape of large language models. We discover that pre-training creates a "basic capability" basin, and subsequent fine-tuning creates "specific capability" basins (e.g., math, safety, coding) within the basic capability basin. We further investigate two types of loss landscapes: the most-case landscape (i.e., the landscape along most directions) and the worst-case landscape (i.e., the landscape along the worst direction). We argue that as long as benign fine-tuning remains within the most-case basin, it will not compromise previous capabilities. Similarly, any fine-tuning (including the adversarial one) that stays within the worst-case basin would not compromise previous capabilities. Finally, we theoretically demonstrate that the size of the most-case basin can bound the size of the worst-case basin and the robustness with respect to input perturbations. We also show that, due to the over-parameterization property of current large language models, one can easily enlarge the basins by five times.
Abstract（参考訳）: 近年の研究では、大きな言語モデルの損失景観が流域に似ており、その内部ではモデルがほぼ同一に機能し、その外では全ての能力を失うことが示されている。本研究では,大規模言語モデルの損失景観についてさらなる研究を行う。事前学習によって基本能力盆地が生成され,その後の微調整によって基本能力盆地内に「特殊能力」盆地(数学,安全,コーディングなど)が形成される。さらに、最も大きな風景(すなわち、ほとんどの方向に沿った風景)と最悪の景観(すなわち、最悪の方向に沿った風景)の2つのタイプの損失景観について検討する。我々は、良心的な微調整が最上級の盆地に留まる限り、以前の能力を損なうことはないと論じている。同様に、最悪のケースの盆地に留まる微調整(敵を含む)は、以前の能力を損なうことはない。最後に, 最大ケース盆地の大きさが, 入力摂動に対する最悪のケース盆地の大きさとロバスト性とを束縛できることを理論的に証明する。また,現在の大規模言語モデルの過度パラメータ化特性から,流域を5倍に拡大できることが示唆された。

関連論文リスト

Da Yu: Towards USV-Based Image Captioning for Waterway Surveillance and Scene Understanding [25.87853252053879]
水路環境に特化して設計された最初のキャプションデータセットであるWaterCaptionを紹介する。 WaterCaptionは、きめ細かいマルチリージョンの長文記述に焦点を当てている。我々は,USVのためのエッジデプロイ可能なマルチモーダルな大規模言語モデルであるDa Yuを提案する。
論文参考訳（メタデータ） (2025-06-24T03:48:48Z)
Do Language Models Use Their Depth Efficiently? [53.56816097840505]
Llama 3.1 および Qwen 3 モデルの残留ストリームを分析する。後半のレイヤが前半のレイヤよりもはるかに少ないことが分かりました。マルチホップタスクでは、モデルが深度を増してサブレサルを構成するという証拠が見つからない。
論文参考訳（メタデータ） (2025-05-20T04:00:56Z)
HYPNOS : Highly Precise Foreground-focused Diffusion Finetuning for Inanimate Objects [1.706656684496508]
頑健な拡散モデルは、ある積の結果のほぼ完全な再構成を行う能力によって決定される。現在の顕著な拡散に基づく微調整技術は、前景オブジェクトの一貫性を維持するには不十分である。我々は,高精度な前景焦点拡散微調整技術であるHypnosを提案する。
論文参考訳（メタデータ） (2024-10-18T08:20:37Z)
Depth Anything V2 [84.88796880335283]
V2は3つの重要なプラクティスを通じて、より微細でより堅牢な深度予測を生成する。すべてのラベル付き実像を合成画像に置き換え、教師モデルの容量を拡大し、大規模な擬似ラベル付き実像のブリッジを通じて生徒モデルを教える。その強い一般化能力から、距離深度モデルを得るために、距離深度ラベルを微調整する。
論文参考訳（メタデータ） (2024-06-13T17:59:56Z)
Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文参考訳（メタデータ） (2024-02-27T12:28:01Z)
Fine-tuning can cripple your foundation model; preserving features may be the solution [87.35911633187204]
タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。我々は、下流タスクに関連する新しい概念を学習しながら、モデルが事前学習した知識を保存できる「textitLDIFS$」という新しい微調整手法を提案する。
論文参考訳（メタデータ） (2023-08-25T11:49:51Z)
Can we avoid Double Descent in Deep Neural Networks? [3.1473798197405944]
二重降下は、ディープラーニングコミュニティの注目を集めている。これは、高一般化を維持するために最適なモデルのサイズについて深刻な疑問を提起する。本研究は, 学習問題の適切な条件付けにより, 二重降下現象は回避可能であることを示す。
論文参考訳（メタデータ） (2023-02-26T08:12:28Z)
An evaluation of deep learning models for predicting water depth evolution in urban floods [59.31940764426359]
高空間分解能水深予測のための異なる深層学習モデルの比較を行った。深層学習モデルはCADDIESセル-オートマタフラッドモデルによってシミュレーションされたデータを再現するために訓練される。その結果,ディープラーニングモデルでは,他の手法に比べて誤差が低いことがわかった。
論文参考訳（メタデータ） (2023-02-20T16:08:54Z)
Towards Accurate Reconstruction of 3D Scene Shape from A Single Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文参考訳（メタデータ） (2022-08-28T16:20:14Z)
Likelihood Landscapes: A Unifying Principle Behind Many Adversarial Defenses [15.629921195632857]
本研究では,防御技術が地形形状に与える影響について検討する。敵防衛技術のサブセットは、可能性の景観を平らにする同様の効果をもたらす。
論文参考訳（メタデータ） (2020-08-25T22:51:51Z)
The Global Landscape of Neural Networks: An Overview [23.79848233534269]
ニューラルネットワークの最近の成功は、その損失がそれほど悪くはないことを示唆している。我々は,「悪い」経路のような幾何学的特性の広いネットワークに関する厳密な結果について論じるとともに,最適化された局所最小値を排除したり,無限大への可視化を減らしたりするいくつかの修正について論じる。
論文参考訳（メタデータ） (2020-07-02T22:50:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。