論文の概要: A Model Zoo of Vision Transformers
- arxiv url: http://arxiv.org/abs/2504.10231v1
- Date: Mon, 14 Apr 2025 13:52:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-15 16:50:22.633840
- Title: A Model Zoo of Vision Transformers
- Title(参考訳): 視覚変換器のモデル動物園
- Authors: Damian Falk, Léo Meynent, Florence Pfammatter, Konstantin Schürholt, Damian Borth,
- Abstract要約: 視覚変換器の最初のモデル動物園(ViT)を紹介する。
近年のトレーニング手法をより良く表現するために,事前学習と微調整の両方を包含するモデル動物園生成のための新しい青写真を開発する。
それらは大量の生成因子で慎重に生成され、その多様性は重量空間と行動メトリクスの完全な選択によって検証される。
- 参考スコア(独自算出の注目度): 6.926413609535758
- License:
- Abstract: The availability of large, structured populations of neural networks - called 'model zoos' - has led to the development of a multitude of downstream tasks ranging from model analysis, to representation learning on model weights or generative modeling of neural network parameters. However, existing model zoos are limited in size and architecture and neglect the transformer, which is among the currently most successful neural network architectures. We address this gap by introducing the first model zoo of vision transformers (ViT). To better represent recent training approaches, we develop a new blueprint for model zoo generation that encompasses both pre-training and fine-tuning steps, and publish 250 unique models. They are carefully generated with a large span of generating factors, and their diversity is validated using a thorough choice of weight-space and behavioral metrics. To further motivate the utility of our proposed dataset, we suggest multiple possible applications grounded in both extensive exploratory experiments and a number of examples from the existing literature. By extending previous lines of similar work, our model zoo allows researchers to push their model population-based methods from the small model regime to state-of-the-art architectures. We make our model zoo available at github.com/ModelZoos/ViTModelZoo.
- Abstract(参考訳): ニューラルネットワークの大規模で構造化された人口 — ‘モデル動物園’ – が利用可能になったことで、モデル分析からモデルウェイトでの学習、ニューラルネットワークパラメータの生成的モデリングに至るまで、さまざまな下流タスクが開発された。
しかし、既存のモデル動物園はサイズとアーキテクチャが限られており、トランスフォーマーを無視している。
視覚変換器の最初のモデル動物園(ViT)を導入することで、このギャップに対処する。
近年のトレーニングアプローチをより良く表現するために,事前学習と微調整の両方を含むモデル動物園生成のための新しい青写真を開発し,250種類のユニークなモデルを公開する。
それらは大量の生成因子で慎重に生成され、その多様性は重量空間と行動メトリクスの完全な選択によって検証される。
提案するデータセットの有用性をさらに高めるために,広範な探索実験と既存文献からのいくつかの例を基盤とした複数のアプリケーションを提案する。
我々のモデル動物園は、これまでの同様の研究の行を延長することで、研究者がモデルに基づく手法を小さなモデル体制から最先端のアーキテクチャへと進めることを可能にする。
モデル動物園はgithub.com/ModelZoos/ViTModelZooで利用可能です。
関連論文リスト
- Knowledge Fusion By Evolving Weights of Language Models [5.354527640064584]
本稿では,複数のモデルを統一モデルに統合するアプローチについて検討する。
本稿では進化的アルゴリズムに触発されたEvolverという知識融合手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T02:12:34Z) - Learning the 3D Fauna of the Web [70.01196719128912]
3D-Faunaは,100種以上の動物種を対象に,パンカテゴリーで変形可能な3D動物モデルを共同で学習する手法である。
動物モデリングにおける重要なボトルネックの1つは、トレーニングデータの可用性の制限である。
従来のカテゴリー固有の試みは,訓練画像に制限のある希少種への一般化に失敗することを示す。
論文 参考訳(メタデータ) (2024-01-04T18:32:48Z) - Model Zoos: A Dataset of Diverse Populations of Neural Network Models [2.7167743929103363]
ニューラルネットワークモデルの体系的生成と多様な集団を含むモデル動物園の新しいデータセットを公表する。
データセットはwww.modelzoos.ccにある。
論文 参考訳(メタデータ) (2022-09-29T13:20:42Z) - Hyper-Representations as Generative Models: Sampling Unseen Neural
Network Weights [2.9678808525128813]
我々は、新しいモデルウェイトをサンプリングするために、生成的使用のためのハイパー表現を拡張した。
以上の結果から, モデル動物園からハイパー表現による新しいモデルへの知識集約の可能性が示唆された。
論文 参考訳(メタデータ) (2022-09-29T12:53:58Z) - Advancing Plain Vision Transformer Towards Remote Sensing Foundation
Model [97.9548609175831]
約1億のパラメータを持つプレーンビジョントランスフォーマーを利用して、リモートセンシングタスク用にカスタマイズされた大規模なビジョンモデルを提案する。
具体的には、RS画像における大きな画像サイズと様々な向きのオブジェクトを扱うために、回転する様々なウィンドウアテンションを提案する。
検出タスクの実験は、DOTA-V1.0データセット上で81.16%のmAPを達成したすべての最先端モデルよりも、我々のモデルの方が優れていることを示す。
論文 参考訳(メタデータ) (2022-08-08T09:08:40Z) - Hyper-Representations for Pre-Training and Transfer Learning [2.9678808525128813]
我々は、生成的使用のためのハイパー表現を拡張して、事前学習として新しいモデルウェイトをサンプリングする。
以上の結果から, モデル動物園からハイパー表現による新しいモデルへの知識集約の可能性が示唆された。
論文 参考訳(メタデータ) (2022-07-22T09:01:21Z) - STAR: Sparse Transformer-based Action Recognition [61.490243467748314]
本研究は,空間的次元と時間的次元に細かな注意を払っている新しいスケルトンに基づく人間行動認識モデルを提案する。
実験により、トレーニング可能なパラメータをはるかに少なくし、トレーニングや推論の高速化を図りながら、モデルが同等のパフォーマンスを達成できることが示されている。
論文 参考訳(メタデータ) (2021-07-15T02:53:11Z) - Zoo-Tuning: Adaptive Transfer from a Zoo of Models [82.9120546160422]
Zoo-Tuningは、事前訓練されたモデルのパラメータをターゲットタスクに適応的に転送することを学ぶ。
我々は、強化学習、画像分類、顔のランドマーク検出など、様々なタスクに対するアプローチを評価した。
論文 参考訳(メタデータ) (2021-06-29T14:09:45Z) - ViViT: A Video Vision Transformer [75.74690759089529]
ビデオ分類にpure-transformerベースのモデルを提案する。
本モデルでは,入力ビデオから時間トークンを抽出し,一連のトランスフォーマー層で符号化する。
トレーニング中にモデルを効果的に正規化し、トレーニング済みの画像モデルを利用して比較的小さなデータセットでトレーニングできることを示します。
論文 参考訳(メタデータ) (2021-03-29T15:27:17Z) - A linearized framework and a new benchmark for model selection for
fine-tuning [112.20527122513668]
異なるドメインで事前訓練されたモデルの集合からの微調整は、低データ体制におけるテストの精度を向上させる技術として現れている。
モデル選択のための2つの新しいベースライン - Label-Gradient と Label-Feature correlation を導入する。
我々のベンチマークでは、微調整されたイメージネットモデルと比較して、モデル動物園での精度向上が強調されている。
論文 参考訳(メタデータ) (2021-01-29T21:57:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。