Fugu-MT 論文翻訳(概要): Model Stock: All we need is just a few fine-tuned models

論文の概要: Model Stock: All we need is just a few fine-tuned models

arxiv url: http://arxiv.org/abs/2403.19522v1
Date: Thu, 28 Mar 2024 15:57:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-29 15:34:50.629892
Title: Model Stock: All we need is just a few fine-tuned models
Title（参考訳）: Model Stock: 必要なのは、微調整されたモデルだけ
Authors: Dong-Hwan Jang, Sangdoo Yun, Dongyoon Han,
Abstract要約: 本稿では,大規模な事前学習モデルに対する効率的な微調整手法を提案し,強力な分布内分散(ID)と分布外分散(OOD)性能を提供する。最終的な重量を達成するために、はるかに少ないモデルを採用するが、精度は優れている。事前学習型CLIPアーキテクチャに基づく微調整モデルを用いたモデルストックの有効性を示す。
参考スコア（独自算出の注目度）: 34.449901046895185
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: This paper introduces an efficient fine-tuning method for large pre-trained models, offering strong in-distribution (ID) and out-of-distribution (OOD) performance. Breaking away from traditional practices that need a multitude of fine-tuned models for averaging, our approach employs significantly fewer models to achieve final weights yet yield superior accuracy. Drawing from key insights in the weight space of fine-tuned weights, we uncover a strong link between the performance and proximity to the center of weight space. Based on this, we introduce a method that approximates a center-close weight using only two fine-tuned models, applicable during or after training. Our innovative layer-wise weight averaging technique surpasses state-of-the-art model methods such as Model Soup, utilizing only two fine-tuned models. This strategy can be aptly coined Model Stock, highlighting its reliance on selecting a minimal number of models to draw a more optimized-averaged model. We demonstrate the efficacy of Model Stock with fine-tuned models based upon pre-trained CLIP architectures, achieving remarkable performance on both ID and OOD tasks on the standard benchmarks, all while barely bringing extra computational demands. Our code and pre-trained models are available at https://github.com/naver-ai/model-stock.
Abstract（参考訳）: 本稿では,大規模な事前学習モデルに対する効率的な微調整手法を提案し,強力な分布内分散(ID)と分布外分散(OOD)性能を提供する。平均化のために多数の微調整されたモデルを必要とする従来のプラクティスから離れて、最終的な重み付けを達成するために、我々のアプローチははるかに少ないモデルを採用するが、精度は優れている。微調整重みの重み空間における重要な洞察から、我々は、性能と重み空間の中心との密接な関係を明らかにする。そこで本研究では,2つの微調整モデルのみを用いて中心閉重量を近似する手法を提案する。我々の革新的な層平均化技術は、モデル・スープのような最先端のモデル手法を超越し、2つの微調整モデルしか利用していない。この戦略はモデルストックと呼ばれ、より最適化された平均モデルを描くために最小限のモデルを選択することへの依存を強調している。トレーニング済みのCLIPアーキテクチャをベースとした細調整モデルによるモデルストックの有効性を実証し,標準ベンチマークにおけるIDおよびOODタスクにおける優れた性能を実現するとともに,計算負荷の増大をほとんど伴わないことを示した。私たちのコードと事前トレーニングされたモデルはhttps://github.com/naver-ai/model-stock.comで公開されています。

関連論文リスト

Approximating Language Model Training Data from Weights [70.08614275061689]
モデル重みからデータ近似の問題を定式化し、いくつかのベースラインとメトリクスを提案する。そこで我々は,大規模公開テキストコーパスから最高のマッチングデータを選択する勾配に基づく手法を開発した。真のトレーニングデータがない場合でも、我々の方法では、公開Webドキュメントの小さなサブセットを見つけることができる。
論文参考訳（メタデータ） (2025-06-18T15:26:43Z)
GRAM: A Generative Foundation Reward Model for Reward Generalization [48.63394690265176]
まず,大規模教師なし学習を用いて学習し,教師付き学習により微調整を行う生成報酬モデルを開発した。このモデルは、応答ランキング、人間のフィードバックからの強化学習、微調整によるタスク適応など、様々なタスクをうまく一般化する。
論文参考訳（メタデータ） (2025-06-17T04:34:27Z)
A Collaborative Ensemble Framework for CTR Prediction [73.59868761656317]
我々は、複数の異なるモデルを活用するための新しいフレームワーク、CETNet(Collaborative Ensemble Training Network)を提案する。ナイーブなモデルスケーリングとは違って,私たちのアプローチは,共同学習による多様性とコラボレーションを重視しています。当社のフレームワークは,Metaの3つのパブリックデータセットと大規模産業データセットに基づいて検証する。
論文参考訳（メタデータ） (2024-11-20T20:38:56Z)
EMR-Merging: Tuning-Free High-Performance Model Merging [55.03509900949149]
Elect, Mask & Rescale-Merging (EMR-Merging) は既存のマージ手法と比較して優れた性能を示した。 EMR-Mergingはチューニング不要なので、データアベイラビリティや追加のトレーニングは必要ありません。
論文参考訳（メタデータ） (2024-05-23T05:25:45Z)
Majority Kernels: An Approach to Leverage Big Model Dynamics for Efficient Small Model Training [32.154166415680066]
蒸留、圧縮、量子化といった手法は、高性能な大きなモデルを利用してより小さな性能のモデルを誘導するのに役立つ。本稿では、単一トレーニングランが同時に、より大きなパフォーマンスモデルをトレーニングし、より小さなデプロイメントモデルを導出できるという仮説を考察する。
論文参考訳（メタデータ） (2024-02-07T17:07:41Z)
Revisiting Implicit Models: Sparsity Trade-offs Capability in Weight-tied Model for Vision Tasks [4.872984658007499]
ディープ平衡モデル(Deep Equilibrium Models, DEQ)のような暗黙のモデルは、無限層のモデルを訓練する能力によって、コミュニティにおいて大きな注目を集めている。暗黙のモデルの行を再検討し、それらを元の重み付けモデルに遡る。驚くべきことに、重み付けモデルの方がDECの変種と比較して、より効率的で、安定であり、視覚タスク上でも効率的である。
論文参考訳（メタデータ） (2023-07-16T11:45:35Z)
Dataless Knowledge Fusion by Merging Weights of Language Models [51.8162883997512]
微調整された事前学習言語モデルは、下流のNLPモデルを構築するための主要なパラダイムとなっている。これは、より優れた単一モデルを生み出すために、個々のモデル間で知識を融合させる障壁を生み出します。パラメータ空間のモデルをマージするデータレス知識融合法を提案する。
論文参考訳（メタデータ） (2022-12-19T20:46:43Z)
Investigating Ensemble Methods for Model Robustness Improvement of Text Classifiers [66.36045164286854]
既存のバイアス機能を分析し、すべてのケースに最適なモデルが存在しないことを実証します。適切なバイアスモデルを選択することで、より洗練されたモデル設計でベースラインよりもロバスト性が得られる。
論文参考訳（メタデータ） (2022-10-28T17:52:10Z)
Model soups: averaging weights of multiple fine-tuned models improves accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文参考訳（メタデータ） (2022-03-10T17:03:49Z)
Reinforcement Learning based dynamic weighing of Ensemble Models for Time Series Forecasting [0.8399688944263843]
データモデリングのために選択されたモデルが(線形/非線形、静的/動的)異なるモデルと独立(最小相関)モデルである場合、予測の精度が向上することが知られている。アンサンブルモデルを重み付けするために文献で提案された様々なアプローチは、静的な重みセットを使用する。この問題に対処するため、Reinforcement Learning (RL)アプローチでは、各モデルの重み付けを異なるタイミングで動的に割り当て、更新する。
論文参考訳（メタデータ） (2020-08-20T10:40:42Z)
When Ensembling Smaller Models is More Efficient than Single Large Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文参考訳（メタデータ） (2020-05-01T18:56:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。