Fugu-MT 論文翻訳(概要): Manifold Metric: A Loss Landscape Approach for Predicting Model Performance

論文の概要: Manifold Metric: A Loss Landscape Approach for Predicting Model Performance

arxiv url: http://arxiv.org/abs/2405.15895v2
Date: Mon, 16 Jun 2025 16:39:12 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-17 17:28:44.497814
Title: Manifold Metric: A Loss Landscape Approach for Predicting Model Performance
Title（参考訳）: Manifold Metric: モデルパフォーマンス予測のためのランドスケープアプローチ
Authors: Pranshu Malviya, Jerry Huang, Aristide Baratin, Quentin Fournier, Sarath Chandar,
Abstract要約: 損失ランドスケープに基づく新しい視点を導入し、線形連結されたミニマの多様体を含むことを示した。具体的には、モデル展開の影響を研究するために、この多様体のサイズを推定する計量を提案する。実験の結果, 実測値と実測値との相関が強く, より深いモデル比較が可能となった。
参考スコア（独自算出の注目度）: 10.738857454749981
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Determining the optimal model for a given task often requires training multiple models from scratch, which becomes impractical as dataset and model sizes grow. A more efficient alternative is to expand smaller pre-trained models, but this approach is underutilized due to a limited understanding of its impact on the training dynamics. Existing methods for quantifying this impact have notable limitations, including computation cost. To address this, we introduce a new perspective based on the loss landscape, which has been shown to contain a manifold of linearly connected minima. Specifically, we propose a metric that estimates the size of this manifold to study the impact of model expansion. Our experiments reveal a strong correlation between performance gains and our manifold metric, enabling more informed model comparison and offering a first step toward a geometry-driven approach for reliable model expansion. Notably, our metric outperforms other baselines, even when different types of expansion with equivalent number of parameters are applied to a model.
Abstract（参考訳）: 与えられたタスクに対して最適なモデルを決定するには、スクラッチから複数のモデルをトレーニングする必要があることが多い。より効率的な代替手段は、より小さな事前訓練モデルを拡張することであるが、このアプローチはトレーニングダイナミクスへの影響を限定的に理解するため、未利用である。この影響を定量化する既存の方法には、計算コストを含む顕著な制限がある。これを解決するために、線形連結されたミニマ多様体を含むことが示されているロスランドスケープに基づく新しい視点を導入する。具体的には、モデル展開の影響を研究するために、この多様体のサイズを推定する計量を提案する。実験の結果, 性能向上と多様体距離の相関関係が強く, より情報的なモデル比較が可能となり, 信頼性のあるモデル展開のための幾何駆動アプローチへの第一歩となった。特に、同値なパラメータ数を持つ異なるタイプの展開がモデルに適用されたとしても、我々のメートル法は他のベースラインよりも優れている。

関連論文リスト

Why Do More Experts Fail? A Theoretical Analysis of Model Merging [51.18155031364046]
モデルマージは、複数のエキスパートモデルを単一のマルチタスクモデルに組み合わせることで、ストレージと計算資源を劇的に削減する。最近のモデルマージ手法は有望な結果を示しているが、マージモデルの増加に伴い性能向上の維持に苦慮している。限定効用パラメータ空間は、マージを成功させることのできるモデルの数に厳密な制約を課すことを示す。
論文参考訳（メタデータ） (2025-05-27T14:10:46Z)
IDEA Prune: An Integrated Enlarge-and-Prune Pipeline in Generative Language Model Pretraining [50.53912352342753]
本稿では,モデルトレーニング,プルーニング,リカバリを併用した拡張・プルンパイプラインを提案する。我々は2.8Bモデルから1.3Bへのプレトレーニングにおいて最大2Tトークンによる圧縮実験を行った。これは、拡大されたモデルの事前学習のトークン効率に関する洞察を提供するだけでなく、刈り取られたモデルの優れた性能を達成するための統合されたアプローチを示す。
論文参考訳（メタデータ） (2025-03-07T20:35:31Z)
A Hitchhiker's Guide to Scaling Law Estimation [56.06982415792523]
スケーリング法則は、より少ないパラメータやより少ないトレーニングセットで訓練が容易なモデルから外挿することで、ターゲットとなる機械学習モデルの損失を予測する。我々は1000以上のスケーリング法則を推定し、新しいモデルファミリーにおけるスケーリング法則を推定するためのベストプラクティスを導出する。
論文参考訳（メタデータ） (2024-10-15T17:59:10Z)
"Why" Has the Least Side Effect on Model Editing [25.67779910446609]
本稿では,モデル編集質問の分類による重要な因子探索型について検討する。その結果, 性能劣化の程度は, 質問の種類によって大きく異なることがわかった。また,バッチサイズが副作用に与える影響についても検討し,バッチサイズの増加が性能低下を軽減することを発見した。
論文参考訳（メタデータ） (2024-09-27T12:05:12Z)
SMILE: Zero-Shot Sparse Mixture of Low-Rank Experts Construction From Pre-Trained Foundation Models [85.67096251281191]
我々は、ゼロショットスパースミクチャー(SMILE)と呼ばれるモデル融合に対する革新的なアプローチを提案する。 SMILEは、余分なデータやさらなるトレーニングなしに、ソースモデルをMoEモデルにアップスケーリングできる。画像分類やテキスト生成タスクなど,さまざまなシナリオに対して,フル微調整とLoRA微調整を用いて広範な実験を行う。
論文参考訳（メタデータ） (2024-08-19T17:32:15Z)
FIARSE: Model-Heterogeneous Federated Learning via Importance-Aware Submodel Extraction [26.26211464623954]
Federated Importance-Aware Submodel extract (FIARSE)は、モデルパラメータの重要性に基づいて、サブモデルを動的に調整する新しいアプローチである。既存の研究と比較して,提案手法はサブモデル抽出の理論的基礎を提供する。提案したFIARSEの優れた性能を示すため,様々なデータセットで大規模な実験を行った。
論文参考訳（メタデータ） (2024-07-28T04:10:11Z)
Revisiting Catastrophic Forgetting in Large Language Model Tuning [79.70722658190097]
Catastrophic Forgetting (CF) は、新しいデータを学ぶ際に獲得した知識を忘れるモデルを意味する。本稿では,モデル損失景観の平坦度と大規模言語モデルの分野におけるCFの広さとの直接的な関係を明らかにするための第一歩を踏み出した。様々なモデルスケールにまたがる3つの大規模微調整データセットの実験により,CFを緩和する手法の有効性が示された。
論文参考訳（メタデータ） (2024-06-07T11:09:13Z)
Low-rank finetuning for LLMs: A fairness perspective [54.13240282850982]
低ランク近似技術は、微調整された大規模言語モデルのデファクトスタンダードとなっている。本稿では,これらの手法が初期訓練済みデータ分布から微調整データセットのシフトを捉える上での有効性について検討する。低ランク微調整は好ましくない偏見や有害な振る舞いを必然的に保存することを示す。
論文参考訳（メタデータ） (2024-05-28T20:43:53Z)
Predictive Churn with the Set of Good Models [64.05949860750235]
近似機械学習モデルの集合に対する競合予測の効果について検討する。ラーショモン集合内のモデル間の係り受けに関する理論的結果を示す。当社のアプローチは、コンシューマ向けアプリケーションにおいて、より予測し、削減し、混乱を避けるためにどのように使用できるかを示します。
論文参考訳（メタデータ） (2024-02-12T16:15:25Z)
Improving Adversarial Transferability via Model Alignment [25.43899674478279]
本稿では,トランスファー可能な逆方向摂動を生成するためのモデルアライメント手法を提案する。さまざまなモデルアーキテクチャを用いたImageNetデータセットの実験では、アライメントされたソースモデルから発生する摂動が、転送可能性を大幅に向上することを示した。
論文参考訳（メタデータ） (2023-11-30T12:15:49Z)
On the Embedding Collapse when Scaling up Recommendation Models [53.66285358088788]
埋め込み崩壊現象をスケーラビリティの阻害とみなし、埋め込み行列は低次元の部分空間を占有する傾向にある。本稿では,組込み集合固有の相互作用モジュールを組み込んで,多様性を持つ組込み集合を学習する,単純かつ効果的な組込み設計を提案する。
論文参考訳（メタデータ） (2023-10-06T17:50:38Z)
The Quest of Finding the Antidote to Sparse Double Descent [1.336445018915526]
モデルの幅が大きくなると、まず性能が悪化し、その後改善され、最終的に劣化する。このような単調な振る舞いは、高性能を維持するために最適なモデルのサイズについて深刻な疑問を提起する。単純な$ell$正規化法は、この現象を緩和するのに役立つが、性能/疎結合性を犠牲にする。
論文参考訳（メタデータ） (2023-08-31T09:56:40Z)
Uncovering the Hidden Cost of Model Compression [43.62624133952414]
視覚プロンプティングは、コンピュータビジョンにおける伝達学習の重要な方法として登場した。モデル圧縮は視覚的プロンプトベース転送の性能に有害である。しかし、量子化によってモデルが圧縮されるとき、キャリブレーションに対する負の効果は存在しない。
論文参考訳（メタデータ） (2023-08-29T01:47:49Z)
Understanding Parameter Sharing in Transformers [53.75988363281843]
トランスフォーマーに関するこれまでの研究は、異なるレイヤでパラメータを共有することに集中しており、モデルの深さを増大させることで、限られたパラメータを持つモデルの性能を向上させることができる。このアプローチの成功は, モデル複雑性の増加により, ごく一部に過ぎず, 収束性の向上に大きく寄与することを示す。 8つの機械翻訳タスクの実験結果から,パラメータ共有モデルのモデル複雑性を半分に抑えて,我々のモデルが競合性能を達成することが示された。
論文参考訳（メタデータ） (2023-06-15T10:48:59Z)
Unlocking the Potential of Federated Learning for Deeper Models [24.875271131226707]
フェデレートラーニング(FL)は、分散機械学習の新しいパラダイムであり、グローバルモデルを複数のクライアントでトレーニングできるようにする。本稿では,より広義のモデルを用いたり,受容領域を縮小したりするなど,ばらつきの低減に基づくいくつかの技術ガイドラインを提案する。これらの手法はより深いモデルにおけるFLの精度を大幅に向上させることができる。
論文参考訳（メタデータ） (2023-06-05T08:45:44Z)
When to Update Your Model: Constrained Model-based Reinforcement Learning [50.74369835934703]
モデルベースRL(MBRL)の非遅延性能保証のための新規で一般的な理論スキームを提案する。続いて導いた境界は、モデルシフトとパフォーマンス改善の関係を明らかにします。さらなる例では、動的に変化する探索からの学習モデルが、最終的なリターンの恩恵をもたらすことが示されている。
論文参考訳（メタデータ） (2022-10-15T17:57:43Z)
Distributional Depth-Based Estimation of Object Articulation Models [21.046351215949525]
本研究では,奥行き画像から直接,調音モデルパラメータの分布を効率よく学習する手法を提案する。私たちのコアコントリビューションには、剛体変換に対する分布の新しい表現が含まれています。本稿では,カテゴリに依存しない調音モデル推定を行う新しい深層学習手法DUST-netを提案する。
論文参考訳（メタデータ） (2021-08-12T17:44:51Z)
Sample Efficient Reinforcement Learning via Model-Ensemble Exploration and Exploitation [3.728946517493471]
MEEEは楽観的な探索と重み付けによる搾取からなるモデルアンサンブル法である。我々の手法は、特にサンプル複雑性において、他のモデルフリーおよびモデルベース最先端手法よりも優れています。
論文参考訳（メタデータ） (2021-07-05T07:18:20Z)
Improving the Reconstruction of Disentangled Representation Learners via Multi-Stage Modeling [54.94763543386523]
現在の自己エンコーダに基づく非絡み合い表現学習法は、(集合体)後部をペナルティ化し、潜伏因子の統計的独立を促進することで、非絡み合いを実現する。本稿では,不整合因子をペナルティに基づく不整合表現学習法を用いて学習する,新しい多段階モデリング手法を提案する。次に、低品質な再構成を、欠落した関連潜伏変数をモデル化するために訓練された別の深層生成モデルで改善する。
論文参考訳（メタデータ） (2020-10-25T18:51:15Z)
A Semiparametric Approach to Interpretable Machine Learning [9.87381939016363]
機械学習におけるブラックボックスモデルは、複雑な問題と高次元設定において優れた予測性能を示した。透明性と解釈可能性の欠如は、重要な意思決定プロセスにおけるそのようなモデルの適用性を制限します。半パラメトリック統計学のアイデアを用いて予測モデルにおける解釈可能性と性能のトレードオフを行う新しい手法を提案する。
論文参考訳（メタデータ） (2020-06-08T16:38:15Z)
Predicting Multidimensional Data via Tensor Learning [0.0]
本研究では,本データセットの内在的多次元構造を保持するモデルを開発する。モデルパラメータを推定するために、オルタネート・リースト・スクエアスアルゴリズムを開発した。提案モデルは,予測文献に存在するベンチマークモデルより優れている。
論文参考訳（メタデータ） (2020-02-11T11:57:07Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。