論文の概要: Model soups need only one ingredient
- arxiv url: http://arxiv.org/abs/2602.09689v1
- Date: Tue, 10 Feb 2026 11:44:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.513147
- Title: Model soups need only one ingredient
- Title(参考訳): モデルスープは1つの材料しか必要としない
- Authors: Alireza Abdollahpoorrostam, Nikolaos Dimitriadis, Adam Hazimeh, Pascal Frossard,
- Abstract要約: 目標分布上の微調整済みの大規模な事前学習モデルは、しばしば分布内(ID)の精度を改善するが、ロバスト性は犠牲となる。
Model Soupsのような重み空間のアンサンブルメソッドは、複数のチェックポイントを平均化することによって、この効果を緩和する。
単一チェックポイントのみを使用して強力なID-OODバランスを実現する,シンプルでデータフリーでハイパーパラメータフリーなポストホック方式であるMonoSoupを紹介する。
- 参考スコア(独自算出の注目度): 34.18140086731622
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning large pre-trained models on a target distribution often improves in-distribution (ID) accuracy, but at the cost of out-of-distribution (OOD) robustness as representations specialize to the fine-tuning data. Weight-space ensembling methods, such as Model Soups, mitigate this effect by averaging multiple checkpoints, but they are computationally prohibitive, requiring the training and storage of dozens of fine-tuned models. In this paper, we introduce MonoSoup, a simple, data-free, hyperparameter-free, post-hoc method that achieves a strong ID-OOD balance using only a single checkpoint. Our method applies Singular Value Decomposition (SVD) to each layer's update and decomposes it into high-energy directions that capture task-specific adaptation and low-energy directions that introduce noise but may still encode residual signals useful for robustness. MonoSoup then uses entropy-based effective rank to automatically re-weigh these components with layer-wise coefficients that account for the spectral and geometric structure of the model. Experiments on CLIP models fine-tuned on ImageNet and evaluated under natural distribution shifts, as well as on Qwen language models tested on mathematical reasoning and multiple-choice benchmarks, show that this plug-and-play approach is a practical and effective alternative to multi-checkpoint methods, retaining much of their benefits without their computational overhead.
- Abstract(参考訳): 目標分布上の微調整済みの大規模モデルでは、分布内(ID)の精度が向上することが多いが、微調整データに特化する表現として、分布外(OOD)の頑健さが犠牲になる。
モデル・スープのような重み空間のアンサンブル法は、複数のチェックポイントを平均化することでこの効果を緩和するが、これらは計算的に禁止され、数十の微調整されたモデルのトレーニングと保存を必要とする。
本稿では,単一チェックポイントのみを用いて強力なID-OODバランスを実現する,シンプルでデータフリーでハイパーパラメータフリーなポストホック方式であるMonoSoupを紹介する。
本手法は各レイヤの更新に特異値分解(SVD)を適用し,タスク固有の適応や低エネルギー方向を捉える高エネルギー方向へ分解する。
その後、MonoSoupはエントロピーベースの有効ランクを使用して、モデルのスペクトル構造と幾何学的構造を考慮に入れたレイヤワイド係数でこれらのコンポーネントを自動的に再ウェディングする。
CLIPモデルの実験は、ImageNet上で微調整され、自然分布シフトの下で評価され、数学的推論や多重選択ベンチマークでテストされたQwen言語モデルと同様に、このプラグイン・アンド・プレイは、マルチチェックポイント方式の実用的な代替手段であり、計算オーバーヘッドを伴わずに多くの利点を保っていることを示している。
関連論文リスト
- Efficiently Training A Flat Neural Network Before It has been Quantizated [7.236012064192816]
視覚変換器(ViT)のPTQ(Post-training Quantization)は,圧縮モデルの効率性から注目されている。
事前定義された精度の低ビットモデルに適したモデルに依存しないニューラルネットワークを効率的にトレーニングする方法は不明である。
本稿では,エラー源の測定とアンタングによってモデルを積極的に事前条件付けするフレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-03T11:21:45Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Self-Boost via Optimal Retraining: An Analysis via Approximate Message Passing [58.52119063742121]
独自の予測と潜在的にノイズの多いラベルを使ってモデルをトレーニングすることは、モデルパフォーマンスを改善するためのよく知られた戦略である。
本稿では,モデルの予測と提供ラベルを最適に組み合わせる方法について論じる。
我々の主な貢献は、現在のモデルの予測と与えられたラベルを組み合わせたベイズ最適集約関数の導出である。
論文 参考訳(メタデータ) (2025-05-21T07:16:44Z) - Feynman-Kac Correctors in Diffusion: Annealing, Guidance, and Product of Experts [64.34482582690927]
事前学習したスコアベースモデルから得られた熱処理, 幾何平均, 製品分布の配列から, 効率的かつ原理的に抽出する方法を提供する。
本稿では,サンプリング品質を向上させるために,推論時間スケーリングを利用する逐次モンテカルロ(SMC)再サンプリングアルゴリズムを提案する。
論文 参考訳(メタデータ) (2025-03-04T17:46:51Z) - Sparse is Enough in Fine-tuning Pre-trained Large Language Models [98.46493578509039]
我々はSparse Increment Fine-Tuning (SIFT) という勾配に基づくスパース微調整アルゴリズムを提案する。
GLUE Benchmark や Instruction-tuning などのタスクで有効性を検証する。
論文 参考訳(メタデータ) (2023-12-19T06:06:30Z) - Uncertainty-aware Parameter-Efficient Self-training for Semi-supervised
Language Understanding [38.11411155621616]
我々は,主に半教師あり学習の手法として,自己学習について研究している。
我々は,新しい不確かさを意識した自己学習フレームワークであるUPETを紹介する。
UPETは性能と効率の面で大幅に向上したことを示す。
論文 参考訳(メタデータ) (2023-10-19T02:18:29Z) - Variational Inference with NoFAS: Normalizing Flow with Adaptive
Surrogate for Computationally Expensive Models [7.217783736464403]
マルコフ連鎖モンテカルロのようなサンプリングに基づくアプローチの使用は、それぞれの可能性評価が計算的に高価であるときに難解になる可能性がある。
変分推論と正規化フローを組み合わせた新しいアプローチは、潜在変数空間の次元と線形にしか成長しない計算コストによって特徴づけられる。
本稿では,ニューラルネットワークサロゲートモデルの正規化フローパラメータと重みを代わりに更新する最適化戦略である,適応サロゲートを用いた正規化フロー(NoFAS)を提案する。
論文 参考訳(メタデータ) (2021-08-28T14:31:45Z) - Attentional-Biased Stochastic Gradient Descent [74.49926199036481]
深層学習におけるデータ不均衡やラベルノイズ問題に対処するための証明可能な手法(ABSGD)を提案する。
本手法は運動量SGDの簡易な修正であり,各試料に個別の重み付けを行う。
ABSGDは追加コストなしで他の堅牢な損失と組み合わせられるほど柔軟である。
論文 参考訳(メタデータ) (2020-12-13T03:41:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。