論文の概要: When Do We Not Need Larger Vision Models?
- arxiv url: http://arxiv.org/abs/2403.13043v2
- Date: Thu, 18 Jul 2024 02:54:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-19 21:11:56.703339
- Title: When Do We Not Need Larger Vision Models?
- Title(参考訳): より大型のビジョンモデルはいつ必要か?
- Authors: Baifeng Shi, Ziyang Wu, Maolin Mao, Xin Wang, Trevor Darrell,
- Abstract要約: 視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。
S$2のScaling on Scales(スケーリング・オン・スケール)のパワーを実演します。
1行のコードで任意のビジョンモデルにS$2$を適用可能なPythonパッケージをリリースします。
- 参考スコア(独自算出の注目度): 55.957626371697785
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scaling up the size of vision models has been the de facto standard to obtain more powerful visual representations. In this work, we discuss the point beyond which larger vision models are not necessary. First, we demonstrate the power of Scaling on Scales (S$^2$), whereby a pre-trained and frozen smaller vision model (e.g., ViT-B or ViT-L), run over multiple image scales, can outperform larger models (e.g., ViT-H or ViT-G) on classification, segmentation, depth estimation, Multimodal LLM (MLLM) benchmarks, and robotic manipulation. Notably, S$^2$ achieves state-of-the-art performance in detailed understanding of MLLM on the V* benchmark, surpassing models such as GPT-4V. We examine the conditions under which S$^2$ is a preferred scaling approach compared to scaling on model size. While larger models have the advantage of better generalization on hard examples, we show that features of larger vision models can be well approximated by those of multi-scale smaller models. This suggests most, if not all, of the representations learned by current large pre-trained models can also be obtained from multi-scale smaller models. Our results show that a multi-scale smaller model has comparable learning capacity to a larger model, and pre-training smaller models with S$^2$ can match or even exceed the advantage of larger models. We release a Python package that can apply S$^2$ on any vision model with one line of code: https://github.com/bfshi/scaling_on_scales.
- Abstract(参考訳): 視覚モデルのサイズを拡大することが、より強力な視覚表現を得るためのデファクトスタンダードとなっている。
本稿では,より大きな視覚モデルが不要な点について論じる。
まず、トレーニング済みで凍結された小さな視覚モデル(例えば、ViT-BまたはViT-L)を複数の画像スケールで実行することで、分類、セグメンテーション、深さ推定、マルチモーダルLLM(MLLM)ベンチマーク、ロボット操作において、より大きなモデル(例えば、ViT-HまたはViT-G)よりも優れた性能を発揮できる(S$^2$)。
特に、S$^2$は、GPT-4Vのようなモデルを上回る、V*ベンチマーク上でのMLLMの詳細な理解において、最先端のパフォーマンスを達成する。
S$^2$がモデルサイズでのスケーリングよりも好ましいスケーリング手法である条件について検討する。
より大型のモデルでは、ハードな例でのより優れた一般化の利点があるが、より大型の視覚モデルの特徴は、マルチスケールの小型モデルによってよく近似できることを示す。
これは、全てではないとしても、現在の大きな事前訓練されたモデルによって学習された表現のほとんどが、マルチスケールのより小さなモデルから得ることができることを示唆している。
以上の結果から,S$^2$の事前学習モデルでは,より大規模なモデルに匹敵する学習能力を有し,より大規模なモデルに匹敵するか,あるいはその優位性を超えうることが示された。
我々は、任意のビジョンモデルに1行のコードでS$^2$を適用することができるPythonパッケージをリリースした。
関連論文リスト
- What Matters for Model Merging at Scale? [94.26607564817786]
モデルマージは、複数の専門家モデルとより有能な単一モデルを組み合わせることを目的としている。
これまでの研究は主に、いくつかの小さなモデルをマージすることに焦点を当ててきた。
本研究は,大規模モデルマージの有用性を体系的に評価する。
論文 参考訳(メタデータ) (2024-10-04T17:17:19Z) - Large Language Model Pruning [0.0]
LLMに特化したモデルプルーニング手法を提案する。
提案手法は深層学習モデルの説明可能性を強調する。
また、大規模モデルにおけるプルーニングと小規模モデルにおけるプルーニングの違いについても検討する。
論文 参考訳(メタデータ) (2024-05-24T18:22:15Z) - STU-Net: Scalable and Transferable Medical Image Segmentation Models
Empowered by Large-Scale Supervised Pre-training [43.04882328763337]
拡張性のあるU-Net(STU-Net)モデルを設計し、パラメータサイズは1400万から140億まで様々である。
我々は、大規模TotalSegmentatorデータセットでスケーラブルなSTU-Netモデルをトレーニングし、モデルサイズの増加がより強力なパフォーマンス向上をもたらすことを発見した。
我々は、直接推論と微調整の両方において、事前学習されたモデルの優れた性能を観察する。
論文 参考訳(メタデータ) (2023-04-13T17:59:13Z) - Specializing Smaller Language Models towards Multi-Step Reasoning [56.78474185485288]
GPT-3.5 (ge$ 175B) から T5 変種 (le$ 11B) までを蒸留できることを示す。
対象タスクに対するモデルの能力を専門化するモデル特殊化を提案する。
論文 参考訳(メタデータ) (2023-01-30T08:51:19Z) - Training Trajectories of Language Models Across Scales [99.38721327771208]
言語モデルのスケールアップは、前例のないパフォーマンス向上につながった。
異なるサイズの言語モデルは事前学習中にどのように学習するか?
より大きな言語モデルはなぜ望ましい振る舞いを示すのか?
論文 参考訳(メタデータ) (2022-12-19T19:16:29Z) - ScaleNet: Searching for the Model to Scale [44.05380012545087]
ベースモデルとスケーリング戦略を共同で検索するために,ScaleNetを提案する。
我々は,大規模ネットワークが様々なFLOPに対して大きな性能上の優位性を持っていることを示す。
論文 参考訳(メタデータ) (2022-07-15T03:16:43Z) - Exploring Sparse Expert Models and Beyond [51.90860155810848]
Mixture-of-Experts (MoE) モデルは、無数のパラメータを持つが、一定の計算コストで有望な結果が得られる。
本稿では,専門家を異なるプロトタイプに分割し,上位1ドルのルーティングに$k$を適用する,エキスパートプロトタイピングというシンプルな手法を提案する。
この戦略は, モデル品質を向上させるが, 一定の計算コストを維持するとともに, 大規模モデルのさらなる探索により, 大規模モデルの訓練に有効であることが示唆された。
論文 参考訳(メタデータ) (2021-05-31T16:12:44Z) - When Ensembling Smaller Models is More Efficient than Single Large
Models [52.38997176317532]
アンサンブルは高い精度で単一モデルより優れており、計算に要する総FLOPは少ない。
これは、アンサンブルの出力の多様性がより大きなモデルを訓練するよりも効率的であることを示す興味深い観察結果である。
論文 参考訳(メタデータ) (2020-05-01T18:56:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。