Fugu-MT 論文翻訳(概要): Accessing Vision Foundation Models at ImageNet-level Costs

論文の概要: Accessing Vision Foundation Models at ImageNet-level Costs

arxiv url: http://arxiv.org/abs/2407.10366v1
Date: Mon, 15 Jul 2024 00:13:53 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-16 16:40:16.519656
Title: Accessing Vision Foundation Models at ImageNet-level Costs
Title（参考訳）: ImageNetレベルのコストでビジョンファウンデーションモデルにアクセスする
Authors: Yitian Zhang, Xu Ma, Yue Bai, Huan Wang, Yun Fu,
Abstract要約: Proteusは、驚くべき能力でImageNetレベルのコストでトレーニングされている。 Proteus-L/14は、OracleのメソッドであるDINOv2-L/14のパフォーマンスを15ベンチマークで比較する。
参考スコア（独自算出の注目度）: 51.521125501182816
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Vision foundation models are renowned for their generalization ability due to massive training data. Nevertheless, they demand tremendous training resources, and the training data is often inaccessible, e.g., CLIP, DINOv2, posing great challenges to developing derivatives that could advance research in this field. In this work, we offer a very simple and general solution, named Proteus, to distill foundation models into smaller equivalents on ImageNet-1K without access to the original training data. Specifically, we remove the designs from conventional knowledge distillation settings that result in dataset bias and present three levels of training objectives, i.e., token, patch, and feature, to maximize the efficacy of knowledge transfer. In this manner, Proteus is trained at ImageNet-level costs with surprising ability, facilitating the accessibility of training foundation models for the broader research community. Leveraging DINOv2-g/14 as the teacher, Proteus-L/14 matches the performance of the Oracle method DINOv2-L/14 (142M training data) across 15 benchmarks and outperforms other vision foundation models including CLIP-L/14 (400M), OpenCLIP-L/14 (400M/2B) and SynCLR-L/14 (600M).
Abstract（参考訳）: ビジョンファウンデーションモデルは、膨大なトレーニングデータのために一般化能力で有名である。それでも彼らは膨大なトレーニングリソースを必要としており、トレーニングデータは多くの場合、例えばCLIP、DINOv2のようなアクセス不能であり、この分野の研究を進展させるデリバティブを開発する上で大きな課題となっている。本研究では,基礎モデルを元のトレーニングデータにアクセスすることなく,ImageNet-1K上の小さな等価物に抽出する,非常にシンプルで汎用的なソリューションProteusを提案する。具体的には, 従来の知識蒸留システムから, データセットバイアスを生じさせ, トークン, パッチ, 特徴という3段階の訓練目標を提示し, 知識伝達の有効性を最大化する。このように、Proteusは驚くべき能力でImageNetレベルのコストでトレーニングされており、幅広い研究コミュニティのためのトレーニング基盤モデルのアクセシビリティを促進している。教師としてDINOv2-g/14を取り入れたProteus-L/14は、OracleのメソッドであるDINOv2-L/14(142Mのトレーニングデータ)のパフォーマンスを15ベンチマークで比較し、CLIP-L/14(400M)、OpenCLIP-L/14(400M/2B)、SynCLR-L/14(600M)など、他のビジョン基盤モデルを上回っている。

関連論文リスト

DeepGen 1.0: A Lightweight Unified Multimodal Model for Advancing Image Generation and Editing [67.77471070868852]
DeepGen 1.0は、画像生成と編集のための軽量な5B統一モデルである。わずか5000万のサンプルでトレーニングされており、WISEでは80BのHunyuan Imageを28%、UniREditBenchでは27BのQwen-Image-Editを37%上回っている。トレーニングコード、ウェイト、データセットをオープンソース化することで、統合マルチモーダルリサーチを民主化する、効率的で高性能な代替手段を提供します。
論文参考訳（メタデータ） (2026-02-12T17:44:24Z)
Navigating Data Scarcity using Foundation Models: A Benchmark of Few-Shot and Zero-Shot Learning Approaches in Medical Imaging [1.533133219129073]
データ不足は、現代の機械学習技術を臨床タスクに適用するための大きな制限要因である。我々は,19種類の医用画像データセットを用いた16の事前訓練基礎モデルを用いて,少数ショット学習とゼロショット学習のベンチマーク研究を行った。以上の結果から,医療データのみに事前訓練されたBiomedCLIPは,非常に小さなトレーニングセットサイズにおいて,平均して最高の成績を示した。
論文参考訳（メタデータ） (2024-08-15T09:55:51Z)
An Experimental Study on Exploring Strong Lightweight Vision Transformers via Masked Image Modeling Pre-Training [51.622652121580394]
Masked Image Modeling (MIM) Pre-training for Large-scale Vision Transformer (ViTs) は、学習した自己教師型ViT機能に加えて、下流での有望なパフォーマンスを実現する。本稿では,テキストテキストレメリーで軽量なViTの微調整性能が,この事前学習パラダイムの恩恵を受けるかどうかを問う。バニラ/階層設計(5.7M$/6.5M$)による純軽量ViTの蒸留による事前トレーニングは、ImageNet-1で79.4%$/78.9%の精度で達成できる。
論文参考訳（メタデータ） (2024-04-18T14:14:44Z)
Mixture of Low-rank Experts for Transferable AI-Generated Image Detection [18.631006488565664]
生成モデルは、最小限の専門知識を持つ写真リアリスティック画像の飛躍的な飛躍を見せ、オンライン情報の真正性に対する懸念を喚起している。本研究の目的は,多様なソースからの画像を識別できる,汎用的なAI生成画像検出器を開発することである。事前学習された視覚言語モデルのゼロショット転送性に着想を得て、未知の領域を一般化するために、CLIP-ViTの非自明な視覚世界知識と記述的習熟度を活用することを目指す。
論文参考訳（メタデータ） (2024-04-07T09:01:50Z)
Effective pruning of web-scale datasets based on complexity of concept clusters [48.125618324485195]
本稿では,大規模なマルチモーダルデータセットを抽出し,イメージネット上でCLIPスタイルのモデルを訓練する手法を提案する。高品質なデータのより小さなセットでのトレーニングは、トレーニングコストを大幅に削減して、より高いパフォーマンスをもたらす可能性があることに気付きました。我々は38の評価タスクにおいて、新しい最先端のImagehttps://info.arxiv.org/help/prep#commentsネットゼロショット精度と競合平均ゼロショット精度を実現する。
論文参考訳（メタデータ） (2024-01-09T14:32:24Z)
Knowledge Transfer from Vision Foundation Models for Efficient Training of Small Task-specific Models [41.292216950622084]
大量のデータセットに事前訓練されたビジョンファウンデーションモデル(VFM)は、さまざまな下流タスクで素晴らしいパフォーマンスを示す。高い推論計算コストのため、これらのモデルは現実世界の多くのアプリケーションにデプロイすることはできない。本稿では,課題指向の知識伝達手法を提案する。
論文参考訳（メタデータ） (2023-11-30T04:07:44Z)
MobileCLIP: Fast Image-Text Models through Multi-Modal Reinforced Training [17.158498267947877]
ランタイム性能に最適化された画像テキストモデルの新たなファミリであるMobileCLIPを紹介する。 MobileCLIPは、画像キャプションモデルと強力なCLIPエンコーダのアンサンブルからの知識伝達を使用して、効率的なモデルの精度を向上させる。我々のアプローチは、強化データセットに付加的な知識を格納することで、列車時の計算オーバーヘッドを回避する。
論文参考訳（メタデータ） (2023-11-28T18:55:42Z)
UniBoost: Unsupervised Unimodal Pre-training for Boosting Zero-shot Vision-Language Tasks [60.46473247205654]
大規模で教師なしのユニモーダルモデルを事前学習として使用することにより、画像テキストペアモデルのゼロショット性能を向上させることができる。実験の結果,単調な事前学習は最先端のCLIPモデルよりも優れていた。
論文参考訳（メタデータ） (2023-06-07T18:26:22Z)
Boosting Visual-Language Models by Exploiting Hard Samples [126.35125029639168]
HELIPは、既存のCLIPモデルの性能を高めるための費用対効果戦略である。我々の方法では、既存のモデルのトレーニングパイプラインと懸命に統合できます。包括的なベンチマークでは、HELIPはパフォーマンス向上のために既存のモデルを継続的に強化する。
論文参考訳（メタデータ） (2023-05-09T07:00:17Z)
DIME-FM: DIstilling Multimodal and Efficient Foundation Models [72.1900621000677]
VLFM(Large Vision-Language Foundation Models)は、画像キャプチャペアの大規模なデータセットに基づいてトレーニングされる。我々は,大容量VLFMに含まれる知識を,より小型でカスタマイズされた基礎モデルに転送できる新しい蒸留機構(DIME-FM)を導入する。結果として得られたモデル "Distill-ViT-B/32" は、プライベートWiTデータセットで事前トレーニングされたCLIP-ViT-B/32モデルと競合する。
論文参考訳（メタデータ） (2023-03-31T17:47:23Z)
EfficientTrain: Exploring Generalized Curriculum Learning for Training Visual Backbones [80.662250618795]
本稿では視覚バックボーン(例えば視覚変換器)の効率的なトレーニングのための新しいカリキュラム学習手法を提案する。オフザシェルフ方式として、様々な人気モデルのウォールタイムトレーニングコストを、精度を犠牲にすることなく、ImageNet-1K/22Kで1.5倍に削減する。
論文参考訳（メタデータ） (2022-11-17T17:38:55Z)
A Deeper Look at Salient Object Detection: Bi-stream Network with a Small Training Dataset [62.26677215668959]
4K画像のみを含む新しい小規模トレーニングセットを構築するための実現可能な方法を提案する。提案する小型トレーニングセットをフル活用するために,新しい双方向ネットワークを提案する。
論文参考訳（メタデータ） (2020-08-07T01:24:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。