論文の概要: Manifold Metric: A Loss Landscape Approach for Predicting Model Performance
- arxiv url: http://arxiv.org/abs/2405.15895v2
- Date: Mon, 16 Jun 2025 16:39:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:44.497814
- Title: Manifold Metric: A Loss Landscape Approach for Predicting Model Performance
- Title(参考訳): Manifold Metric: モデルパフォーマンス予測のためのランドスケープアプローチ
- Authors: Pranshu Malviya, Jerry Huang, Aristide Baratin, Quentin Fournier, Sarath Chandar,
- Abstract要約: 損失ランドスケープに基づく新しい視点を導入し、線形連結されたミニマの多様体を含むことを示した。
具体的には、モデル展開の影響を研究するために、この多様体のサイズを推定する計量を提案する。
実験の結果, 実測値と実測値との相関が強く, より深いモデル比較が可能となった。
- 参考スコア(独自算出の注目度): 10.738857454749981
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Determining the optimal model for a given task often requires training multiple models from scratch, which becomes impractical as dataset and model sizes grow. A more efficient alternative is to expand smaller pre-trained models, but this approach is underutilized due to a limited understanding of its impact on the training dynamics. Existing methods for quantifying this impact have notable limitations, including computation cost. To address this, we introduce a new perspective based on the loss landscape, which has been shown to contain a manifold of linearly connected minima. Specifically, we propose a metric that estimates the size of this manifold to study the impact of model expansion. Our experiments reveal a strong correlation between performance gains and our manifold metric, enabling more informed model comparison and offering a first step toward a geometry-driven approach for reliable model expansion. Notably, our metric outperforms other baselines, even when different types of expansion with equivalent number of parameters are applied to a model.
- Abstract(参考訳): 与えられたタスクに対して最適なモデルを決定するには、スクラッチから複数のモデルをトレーニングする必要があることが多い。
より効率的な代替手段は、より小さな事前訓練モデルを拡張することであるが、このアプローチはトレーニングダイナミクスへの影響を限定的に理解するため、未利用である。
この影響を定量化する既存の方法には、計算コストを含む顕著な制限がある。
これを解決するために、線形連結されたミニマ多様体を含むことが示されているロスランドスケープに基づく新しい視点を導入する。
具体的には、モデル展開の影響を研究するために、この多様体のサイズを推定する計量を提案する。
実験の結果, 性能向上と多様体距離の相関関係が強く, より情報的なモデル比較が可能となり, 信頼性のあるモデル展開のための幾何駆動アプローチへの第一歩となった。
特に、同値なパラメータ数を持つ異なるタイプの展開がモデルに適用されたとしても、我々のメートル法は他のベースラインよりも優れている。
関連論文リスト
- IDEA Prune: An Integrated Enlarge-and-Prune Pipeline in Generative Language Model Pretraining [50.53912352342753]
本稿では,モデルトレーニング,プルーニング,リカバリを併用した拡張・プルンパイプラインを提案する。
我々は2.8Bモデルから1.3Bへのプレトレーニングにおいて最大2Tトークンによる圧縮実験を行った。
これは、拡大されたモデルの事前学習のトークン効率に関する洞察を提供するだけでなく、刈り取られたモデルの優れた性能を達成するための統合されたアプローチを示す。
論文 参考訳(メタデータ) (2025-03-07T20:35:31Z) - "Why" Has the Least Side Effect on Model Editing [25.67779910446609]
本稿では,モデル編集質問の分類による重要な因子探索型について検討する。
その結果, 性能劣化の程度は, 質問の種類によって大きく異なることがわかった。
また,バッチサイズが副作用に与える影響についても検討し,バッチサイズの増加が性能低下を軽減することを発見した。
論文 参考訳(メタデータ) (2024-09-27T12:05:12Z) - SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。
SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。
画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文 参考訳(メタデータ) (2024-08-19T17:32:15Z) - Revisiting Catastrophic Forgetting in Large Language Model Tuning [79.70722658190097]
Catastrophic Forgetting (CF) は、新しいデータを学ぶ際に獲得した知識を忘れるモデルを意味する。
本稿では,モデル損失景観の平坦度と大規模言語モデルの分野におけるCFの広さとの直接的な関係を明らかにするための第一歩を踏み出した。
様々なモデルスケールにまたがる3つの大規模微調整データセットの実験により,CFを緩和する手法の有効性が示された。
論文 参考訳(メタデータ) (2024-06-07T11:09:13Z) - Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。
本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。
低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文 参考訳(メタデータ) (2024-05-28T20:43:53Z) - Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。
ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。
当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文 参考訳(メタデータ) (2024-02-12T16:15:25Z) - Improving Adversarial Transferability via Model Alignment [25.43899674478279]
本稿では,トランスファー可能な逆方向摂動を生成するためのモデルアライメント手法を提案する。
さまざまなモデルアーキテクチャを用いたImageNetデータセットの実験では、アライメントされたソースモデルから発生する摂動が、転送可能性を大幅に向上することを示した。
論文 参考訳(メタデータ) (2023-11-30T12:15:49Z) - On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。
本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文 参考訳(メタデータ) (2023-10-06T17:50:38Z) - The Quest of Finding the Antidote to Sparse Double Descent [1.336445018915526]
モデルの幅が大きくなると、まず性能が悪化し、その後改善され、最終的に劣化する。
このような単調な振る舞いは、高性能を維持するために最適なモデルのサイズについて深刻な疑問を提起する。
単純な$ell$正規化法は、この現象を緩和するのに役立つが、性能/疎結合性を犠牲にする。
論文 参考訳(メタデータ) (2023-08-31T09:56:40Z) - Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。
モデル圧縮は視覚的プロンプトベース転送の性能に有害である。
しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文 参考訳(メタデータ) (2023-08-29T01:47:49Z) - Unlocking the Potential of Federated Learning for Deeper Models [24.875271131226707]
フェデレートラーニング(FL)は、分散機械学習の新しいパラダイムであり、グローバルモデルを複数のクライアントでトレーニングできるようにする。
本稿では,より広義のモデルを用いたり,受容領域を縮小したりするなど,ばらつきの低減に基づくいくつかの技術ガイドラインを提案する。
これらの手法はより深いモデルにおけるFLの精度を大幅に向上させることができる。
論文 参考訳(メタデータ) (2023-06-05T08:45:44Z) - When to Update Your Model: Constrained Model-based Reinforcement
Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。
続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。
さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2022-10-15T17:57:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。