論文の概要: Unveiling the Basin-Like Loss Landscape in Large Language Models
- arxiv url: http://arxiv.org/abs/2505.17646v2
- Date: Wed, 08 Oct 2025 04:36:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-09 14:21:18.00876
- Title: Unveiling the Basin-Like Loss Landscape in Large Language Models
- Title(参考訳): 大規模言語モデルにおける盆地型失われた景観の創出
- Authors: Huanran Chen, Yinpeng Dong, Zeming Wei, Yao Huang, Yichi Zhang, Hang Su, Jun Zhu,
- Abstract要約: 事前学習により, テクストベース機能盆地が生成され, その後のアライメント微調整形式がテクスト固有機能盆地となることが観察された。
その結果, 逆方向の微調整がほぼ最悪の方向に進行し, モデル性能が急速に低下することが判明した。
- 参考スコア(独自算出の注目度): 64.07900377968143
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We discover the emergence of \textit{basins} in the loss landscape of large language models. As model scale increases, LLMs become progressively more resilient to random perturbations in the parameter space, giving rise to expansive stability regions where models exhibit nearly identical performance, but outside of which their capabilities collapse. We observe that pre-training creates a \textit{basic capability} basin, and subsequent alignment fine-tuning forms \textit{specific capability} basins (e.g., safety, math, coding). Thus, we argue that benign fine-tuning confined to the basin should preserve prior capabilities. Besides, we also analyze the loss landscape for worst-case directions, which is consistently sharp and detrimental. We find that adversarial fine-tuning moves along the nearly worst-case directions, thus rapidly degrading model capabilities. Finally, we provide a theoretical analysis demonstrating that the basin size bounds the performance degradation of any fine-tuning, including the adversarial ones, while also guaranteeing the model robustness w.r.t. input perturbations, suggesting the benefit of enlarging basins.
- Abstract(参考訳): 大規模言語モデルの損失景観におけるtextit{basins} の出現を明らかにする。
モデルスケールが大きくなるにつれて、LLMはパラメータ空間のランダムな摂動に対して徐々に耐性が増し、モデルがほぼ同じ性能を示すが、それらの能力が崩壊する領域が広がる。
事前学習では, 事前学習によって \textit{basic capabilities} 盆地が生成され, その後のアライメント微調整形式 \textit{specific capabilities} 盆地(例えば, 安全性, 数学, コーディング)が生成される。
したがって、盆地に制限された良質な微調整は、事前の能力を維持するべきであると論じる。
さらに、最悪のケースの方向の損失状況も分析し、それは常に鋭く、有害である。
その結果, 逆方向の微調整がほぼ最悪の方向に進行し, モデル性能が急速に低下することが判明した。
最後に, 流域の大きさが, 逆方向を含むあらゆる微調整の性能劣化に束縛されていること, また, 入力摂動のモデル頑健性を保証すること, そして, 流域を拡大する利点を示唆する理論解析を行った。
関連論文リスト
- Da Yu: Towards USV-Based Image Captioning for Waterway Surveillance and Scene Understanding [25.87853252053879]
水路環境に特化して設計された最初のキャプションデータセットであるWaterCaptionを紹介する。
WaterCaptionは、きめ細かいマルチリージョンの長文記述に焦点を当てている。
我々は,USVのためのエッジデプロイ可能なマルチモーダルな大規模言語モデルであるDa Yuを提案する。
論文 参考訳(メタデータ) (2025-06-24T03:48:48Z) - Do Language Models Use Their Depth Efficiently? [53.56816097840505]
Llama 3.1 および Qwen 3 モデルの残留ストリームを分析する。
後半のレイヤが前半のレイヤよりもはるかに少ないことが分かりました。
マルチホップタスクでは、モデルが深度を増してサブレサルを構成するという証拠が見つからない。
論文 参考訳(メタデータ) (2025-05-20T04:00:56Z) - HYPNOS : Highly Precise Foreground-focused Diffusion Finetuning for Inanimate Objects [1.706656684496508]
頑健な拡散モデルは、ある積の結果のほぼ完全な再構成を行う能力によって決定される。
現在の顕著な拡散に基づく微調整技術は、前景オブジェクトの一貫性を維持するには不十分である。
我々は,高精度な前景焦点拡散微調整技術であるHypnosを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:20:37Z) - Depth Anything V2 [84.88796880335283]
V2は3つの重要なプラクティスを通じて、より微細でより堅牢な深度予測を生成する。
すべてのラベル付き実像を合成画像に置き換え、教師モデルの容量を拡大し、大規模な擬似ラベル付き実像のブリッジを通じて生徒モデルを教える。
その強い一般化能力から、距離深度モデルを得るために、距離深度ラベルを微調整する。
論文 参考訳(メタデータ) (2024-06-13T17:59:56Z) - Super Consistency of Neural Network Landscapes and Learning Rate Transfer [72.54450821671624]
我々は、失われたヘッセンのレンズを通して風景を研究する。
我々は、$mu$P のスペクトル特性がネットワークの大きさに大きく依存していることを発見した。
ニューラルタンジェントカーネル(NTK)や他のスケーリングシステムでは、シャープネスは異なるスケールで非常に異なるダイナミクスを示す。
論文 参考訳(メタデータ) (2024-02-27T12:28:01Z) - Fine-tuning can cripple your foundation model; preserving features may be the solution [87.35911633187204]
タスク上の概念を認識できる微調整モデルの能力は、事前訓練されたモデルに比べて大幅に低下する。
我々は、下流タスクに関連する新しい概念を学習しながら、モデルが事前学習した知識を保存できる「textitLDIFS$」という新しい微調整手法を提案する。
論文 参考訳(メタデータ) (2023-08-25T11:49:51Z) - Can we avoid Double Descent in Deep Neural Networks? [3.1473798197405944]
二重降下は、ディープラーニングコミュニティの注目を集めている。
これは、高一般化を維持するために最適なモデルのサイズについて深刻な疑問を提起する。
本研究は, 学習問題の適切な条件付けにより, 二重降下現象は回避可能であることを示す。
論文 参考訳(メタデータ) (2023-02-26T08:12:28Z) - An evaluation of deep learning models for predicting water depth
evolution in urban floods [59.31940764426359]
高空間分解能水深予測のための異なる深層学習モデルの比較を行った。
深層学習モデルはCADDIESセル-オートマタフラッドモデルによってシミュレーションされたデータを再現するために訓練される。
その結果,ディープラーニングモデルでは,他の手法に比べて誤差が低いことがわかった。
論文 参考訳(メタデータ) (2023-02-20T16:08:54Z) - Towards Accurate Reconstruction of 3D Scene Shape from A Single
Monocular Image [91.71077190961688]
まず、未知のスケールまで深さを予測し、単一の単眼画像からシフトする2段階のフレームワークを提案する。
次に、3Dポイントの雲のデータを利用して、奥行きの変化とカメラの焦点距離を予測し、3Dシーンの形状を復元します。
我々は9つの未知のデータセットで深度モデルを検証し、ゼロショット評価で最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-08-28T16:20:14Z) - Likelihood Landscapes: A Unifying Principle Behind Many Adversarial
Defenses [15.629921195632857]
本研究では,防御技術が地形形状に与える影響について検討する。
敵防衛技術のサブセットは、可能性の景観を平らにする同様の効果をもたらす。
論文 参考訳(メタデータ) (2020-08-25T22:51:51Z) - The Global Landscape of Neural Networks: An Overview [23.79848233534269]
ニューラルネットワークの最近の成功は、その損失がそれほど悪くはないことを示唆している。
我々は,「悪い」経路のような幾何学的特性の広いネットワークに関する厳密な結果について論じるとともに,最適化された局所最小値を排除したり,無限大への可視化を減らしたりするいくつかの修正について論じる。
論文 参考訳(メタデータ) (2020-07-02T22:50:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。