論文の概要: Model soups to increase inference without increasing compute time
- arxiv url: http://arxiv.org/abs/2301.10092v1
- Date: Tue, 24 Jan 2023 15:59:07 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-25 13:17:15.234963
- Title: Model soups to increase inference without increasing compute time
- Title(参考訳): 計算時間を増やすことなく推論を増加させるモデルスープ
- Authors: Charles Dansereau, Milo Sobral, Maninder Bhogal and Mehdi Zalai
- Abstract要約: 3つの異なるモデル(ResNet、ViT、EfficientNet)におけるModel Soupsのパフォーマンスの比較を行う。
次に、Pruned Soupと呼ばれる新しいSoup Recipeを紹介します。
スープの結果は、トレーニング済みのビジョントランスフォーマーの最高の個別モデルよりも優れていたが、ResNetやEfficientNetでは最悪だった。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In this paper, we compare Model Soups performances on three different models
(ResNet, ViT and EfficientNet) using three Soup Recipes (Greedy Soup Sorted,
Greedy Soup Random and Uniform soup) from arXiv:2203.05482, and reproduce the
results of the authors. We then introduce a new Soup Recipe called Pruned Soup.
Results from the soups were better than the best individual model for the
pre-trained vision transformer, but were much worst for the ResNet and the
EfficientNet. Our pruned soup performed better than the uniform and greedy
soups presented in the original paper. We also discuss the limitations of
weight-averaging that were found during the experiments. The code for our model
soup library and the experiments with different models can be found here:
https://github.com/milo-sobral/ModelSoup
- Abstract(参考訳): 本稿では,3種類のモデル(ResNet,ViT,EfficientNet)におけるモデルスープのパフォーマンスを,arXiv:2203.05482の3種類のスープレシピ(Greedy Soup Sorted,Greedy Soup Random,Uniform soup)を用いて比較し,著者の成果を再現する。
次に、Pruned Soupと呼ばれる新しいSoup Recipeを紹介します。
スープの結果は、トレーニング済みのビジョントランスフォーマーの最高の個別モデルよりも優れていたが、ResNetやEfficientNetでは最悪だった。
刈り取ったスープは,原紙に提示された均一で欲深いスープよりも優れていた。
また,実験中に発見された重量制限についても検討した。
モデルスープライブラリのコードと、異なるモデルによる実験は以下の通りである。
関連論文リスト
- Learning Scalable Model Soup on a Single GPU: An Efficient Subspace Training Strategy [45.48742652332425]
モデルスープの変種であるLearned-Soupは、パフォーマンスを大幅に改善するが、メモリと時間コストが大幅に低下する。
本稿では,この問題に対処するために,メモリ効率の高いハイパープレーン学習スープ(MEHL-Soup)を提案する。
テスト精度ではMEHL-Soup(+)がLearred-Soup(+)より優れており,メモリ使用量も13ドル以上削減されている。
論文 参考訳(メタデータ) (2024-07-04T05:23:22Z) - RADIN: Souping on a Budget [0.5439020425819]
本稿では, 平均アンサンブルロジット性能を用いて, スープ性能を近似することで, モデルスープの高速化を提案する。
我々の資源調整スープクラフトイン(RADIN)は、柔軟な評価予算を許すことで際立っている。
論文 参考訳(メタデータ) (2024-01-31T12:32:18Z) - Descriptor and Word Soups: Overcoming the Parameter Efficiency Accuracy Tradeoff for Out-of-Distribution Few-shot Learning [13.075100580514212]
記述子(descriptor)と単語スープ( word soups)という,より柔軟な方法を提案する。
Descriptor soupは、ジェネリックな数ショットのトレーニングデータを使用して、テキスト記述子の小さなセットを優しく選択する。
単語のスープは、似たような方法で単語の連鎖を優雅に組み立てる。
論文 参考訳(メタデータ) (2023-11-21T23:30:01Z) - Retentive Network: A Successor to Transformer for Large Language Models [91.6652200825638]
大規模言語モデルの基盤アーキテクチャとしてRetentive Network(RetNet)を提案する。
理論的には、再発と注意の関係を導出する。
言語モデリングの実験結果から、RetNetは優れたスケーリング結果、並列トレーニング、低コストなデプロイメント、効率的な推論を実現している。
論文 参考訳(メタデータ) (2023-07-17T16:40:01Z) - Large Language Models as Sous Chefs: Revising Recipes with GPT-3 [56.7155146252028]
我々は、複雑で多様で広く使われている指示の例としてレシピに焦点を当てている。
我々は、レシピと材料リストに基づいたプロンプトを開発し、レシピをより単純なステップに分解する。
また,レシピリビジョンの品質の人的判断を収集しながら,疲労軽減を念頭に設計したAmazon Mechanical Turkタスクにも貢献する。
論文 参考訳(メタデータ) (2023-06-24T14:42:43Z) - Graph Ladling: Shockingly Simple Parallel GNN Training without
Intermediate Communication [100.51884192970499]
GNNは、グラフを学習するニューラルネットワークの強力なファミリーである。
GNNのスケーリングは、肥大化または拡大によって、不健康な勾配、過度なスムースメント、情報のスカッシングといった問題に悩まされる。
本稿では,現在のGNNの深層化や拡張ではなく,GNNに適したモデルスープをデータ中心の視点で表現することを提案する。
論文 参考訳(メタデータ) (2023-06-18T03:33:46Z) - Instant Soup: Cheap Pruning Ensembles in A Single Pass Can Draw Lottery
Tickets from Large Models [106.19385911520652]
Lottery Ticket hypothesis (LTH)とその変種は、パラメーターワークを生成する大規模な事前訓練モデルを作成するために利用されてきた。
LTHは反復的フルトレーニングと反復的マグニチュードプルーニング(IMP)のプルーニングルーチンによって著しく抑制される
Instant Soup Pruning (ISP) を提案する。
論文 参考訳(メタデータ) (2023-06-18T03:09:52Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - A Conditional Cascade Model for Relational Triple Extraction [0.9926500244448218]
タグベースの手法は三重抽出における主要な手法の1つである。
ほとんどが階級不均衡の問題に悩まされている。
この問題に対処する新しいタグ付けモデルを提案する。
論文 参考訳(メタデータ) (2021-08-20T03:00:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。