論文の概要: Predicting the Impact of Model Expansion through the Minima Manifold: A Loss Landscape Perspective
- arxiv url: http://arxiv.org/abs/2405.15895v1
- Date: Fri, 24 May 2024 19:33:05 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-29 02:10:19.885802
- Title: Predicting the Impact of Model Expansion through the Minima Manifold: A Loss Landscape Perspective
- Title(参考訳): ミニマ・マニフォールドによるモデル拡大の影響予測 : 失われた景観の展望
- Authors: Pranshu Malviya, Jerry Huang, Quentin Fournier, Sarath Chandar,
- Abstract要約: 本稿では, 多様体の大きさを推定することにより, 膨張の影響を研究するための計量について述べる。
実験結果から, 性能の利得と多様体サイズとの関係が明らかとなった。
- 参考スコア(独自算出の注目度): 10.547693900435917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The optimal model for a given task is often challenging to determine, requiring training multiple models from scratch which becomes prohibitive as dataset and model sizes grow. A more efficient alternative is to reuse smaller pre-trained models by expanding them, however, this is not widely adopted as how this impacts training dynamics remains poorly understood. While prior works have introduced statistics to measure these effects, they remain flawed. To rectify this, we offer a new approach for understanding and quantifying the impact of expansion through the lens of the loss landscape, which has been shown to contain a manifold of linearly connected minima. Building on this new perspective, we propose a metric to study the impact of expansion by estimating the size of the manifold. Experimental results show a clear relationship between gains in performance and manifold size, enabling the comparison of candidate models and presenting a first step towards expanding models more reliably based on geometric properties of the loss landscape.
- Abstract(参考訳): 与えられたタスクの最適モデルは、データセットやモデルのサイズが大きくなるにつれて禁止される複数のモデルをスクラッチからトレーニングする必要があるため、決定が難しいことが多い。
より効率的な代替手段は、拡張することで、より小さな事前学習モデルの再利用であるが、このことがトレーニングダイナミクスにどのように影響するかが理解されていないため、広く採用されていない。
以前の研究はこれらの効果を測定する統計を導入したが、それらにはまだ欠陥がある。
これを修正するために、損失ランドスケープのレンズによる膨張の影響を理解し定量化するための新しいアプローチを提案し、これは線形連結されたミニマの多様体を含むことが示されている。
この新たな視点に基づいて、多様体の大きさを推定することにより、拡大の影響を研究する指標を提案する。
実験結果から, 性能と多様体の大きさの関係が明らかとなり, 候補モデルの比較が可能となり, 損失景観の幾何学的特性に基づいて, モデルをより確実に拡張する第一歩が提示された。
関連論文リスト
- "Why" Has the Least Side Effect on Model Editing [25.67779910446609]
本稿では,モデル編集質問の分類による重要な因子探索型について検討する。
その結果, 性能劣化の程度は, 質問の種類によって大きく異なることがわかった。
また,バッチサイズが副作用に与える影響についても検討し,バッチサイズの増加が性能低下を軽減することを発見した。
論文 参考訳(メタデータ) (2024-09-27T12:05:12Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Revisiting Catastrophic Forgetting in Large Language Model Tuning [79.70722658190097]
Catastrophic Forgetting (CF) は、新しいデータを学ぶ際に獲得した知識を忘れるモデルを意味する。
本稿では,モデル損失景観の平坦度と大規模言語モデルの分野におけるCFの広さとの直接的な関係を明らかにするための第一歩を踏み出した。
様々なモデルスケールにまたがる3つの大規模微調整データセットの実験により,CFを緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-07T11:09:13Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。
ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。
当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Improving Adversarial Transferability via Model Alignment [25.43899674478279]
本稿では,トランスファー可能な逆方向摂動を生成するためのモデルアライメント手法を提案する。
さまざまなモデルアーキテクチャを用いたImageNetデータセットの実験では、アライメントされたソースモデルから発生する摂動が、転送可能性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-11-30T12:15:49Z) - On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。
本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文 参考訳(メタデータ) (2023-10-06T17:50:38Z) - The Quest of Finding the Antidote to Sparse Double Descent [1.336445018915526]
モデルの幅が大きくなると、まず性能が悪化し、その後改善され、最終的に劣化する。
このような単調な振る舞いは、高性能を維持するために最適なモデルのサイズについて深刻な疑問を提起する。
単純な$ell$正規化法は、この現象を緩和するのに役立つが、性能/疎結合性を犠牲にする。
論文 参考訳(メタデータ) (2023-08-31T09:56:40Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Unlocking the Potential of Federated Learning for Deeper Models [24.875271131226707]
フェデレートラーニング(FL)は、分散機械学習の新しいパラダイムであり、グローバルモデルを複数のクライアントでトレーニングできるようにする。
本稿では,より広義のモデルを用いたり,受容領域を縮小したりするなど,ばらつきの低減に基づくいくつかの技術ガイドラインを提案する。
これらの手法はより深いモデルにおけるFLの精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-06-05T08:45:44Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。