論文の概要: VeCAF: VLM-empowered Collaborative Active Finetuning with Training
Objective Awareness
- arxiv url: http://arxiv.org/abs/2401.07853v1
- Date: Mon, 15 Jan 2024 17:28:37 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 16:23:54.327766
- Title: VeCAF: VLM-empowered Collaborative Active Finetuning with Training
Objective Awareness
- Title(参考訳): VeCAF: 目標認識を訓練したVLMを用いた協調型アクティブファインタニング
- Authors: Rongyu Zhang, Zefan Cai, Huanrui Yang, Zidong Liu, Denis Gudovskiy,
Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Baobao Chang, Yuan Du, Li Du,
Shanghang Zhang
- Abstract要約: PVM(Pretrained Vision Model)は、下流の視覚タスクを学習するための一般的なテクニックである。
VLMを用いた協調型アクティブファインタニング(VeCAF)を提案する。
VeCAFは、調整中のモデルのトレーニング目標を組み込むことで、パラメトリックデータ選択モデルを最適化する。
- 参考スコア(独自算出の注目度): 58.40419742596087
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Finetuning a pretrained vision model (PVM) is a common technique for learning
downstream vision tasks. The conventional finetuning process with the randomly
sampled data points results in diminished training efficiency. To address this
drawback, we propose a novel approach, VLM-empowered Collaborative Active
Finetuning (VeCAF). VeCAF optimizes a parametric data selection model by
incorporating the training objective of the model being tuned. Effectively,
this guides the PVM towards the performance goal with improved data and
computational efficiency. As vision-language models (VLMs) have achieved
significant advancements by establishing a robust connection between image and
language domains, we exploit the inherent semantic richness of the text
embedding space and utilize text embedding of pretrained VLM models to augment
PVM image features for better data selection and finetuning. Furthermore, the
flexibility of text-domain augmentation gives VeCAF a unique ability to handle
out-of-distribution scenarios without external augmented data. Extensive
experiments show the leading performance and high efficiency of VeCAF that is
superior to baselines in both in-distribution and out-of-distribution image
classification tasks. On ImageNet, VeCAF needs up to 3.3x less training batches
to reach the target performance compared to full finetuning and achieves 2.8%
accuracy improvement over SOTA methods with the same number of batches.
- Abstract(参考訳): PVM(Pretrained Vision Model)は、下流の視覚タスクを学習するための一般的なテクニックである。
ランダムなサンプルデータポイントを用いた従来の微調整処理はトレーニング効率を低下させる。
この欠点に対処するため,VLMを用いた協調アクティブファインタニング(VeCAF)を提案する。
VeCAFは、調整対象モデルのトレーニング目標を組み込むことで、パラメトリックデータ選択モデルを最適化する。
これにより、PVMはデータの改善と計算効率の向上によってパフォーマンス目標に向かって導かれる。
視覚言語モデル(vlms)は,画像領域と言語領域間の強固な接続を確立することによって大きな進歩を遂げたため,テキスト埋め込み空間の固有の意味的豊かさを活用し,事前学習されたvlmモデルのテキスト埋め込みを活用し,pvm画像機能を強化し,データ選択と微調整を改善した。
さらに、テキストドメイン拡張の柔軟性により、VeCAFは外部拡張データなしで配布外シナリオを処理できるユニークな機能を提供する。
広汎な実験は、分布内および分布外画像分類タスクにおいて、ベースラインよりも優れたVeCAFの先行性能と高い効率を示す。
ImageNetでは、VeCAFは完全な微調整よりも目標性能に到達するために最大3.3倍のトレーニングバッチを必要とし、同じバッチ数を持つSOTAメソッドよりも2.8%精度が向上している。
関連論文リスト
- Self-Adapting Large Visual-Language Models to Edge Devices across Visual
Modalities [11.53488611812612]
近年のVision-Language(VL)モデルの進歩は、エッジデバイスへの展開への関心を喚起している。
We introduced EdgeVL, a novel framework that seamlessly integrates dual-modality knowledge distillation and Quantization-aware contrastive learning。
私たちの研究は、エッジデプロイメントに大規模なVLモデルを適応するための最初の体系的な取り組みであり、複数のデータセットで最大15.4%の精度向上と、最大93倍のモデルサイズ削減を示している。
論文 参考訳(メタデータ) (2024-03-07T21:34:40Z) - Learning Semantic Proxies from Visual Prompts for Parameter-Efficient
Fine-Tuning in Deep Metric Learning [15.254782791542329]
既存のソリューションは、既存の画像データセット上でトレーニング済みのモデルを微調整することに集中している。
我々は、事前学習された視覚変換器(ViT)における視覚プロンプト(VPT)の学習に基づく、新しい効果的なフレームワークを提案する。
セマンティック情報を用いた新しい近似が代表的能力よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-02-04T04:42:05Z) - Empirical Analysis of Efficient Fine-Tuning Methods for Large
Pre-Trained Language Models [4.096453902709292]
BitFitとアダプタモジュールは、標準のフルモデルファインチューニングと比較される。
BitFitアプローチは、さまざまなトレーニングデータにわたる完全な微調整パフォーマンスと一致します。
アダプタモジュールは、デフォルトモデルよりも一貫性のないゲインを持つ、高い可変性を示す。
論文 参考訳(メタデータ) (2024-01-08T17:44:43Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - TAP: Targeted Prompting for Task Adaptive Generation of Textual Training
Instances for Visual Classification [28.72126911321771]
視覚と言語モデル(VLM)は、テキストプロンプトによって記述される潜在的に無制限なカテゴリの視覚的認識を可能にした。
最高の視覚認識性能を得るためには、これらのモデルは下流のタスクのデータ分散をよりよく適合させるためにチューニングが必要である。
論文 参考訳(メタデータ) (2023-09-13T08:59:54Z) - Consistency Regularization for Generalizable Source-free Domain
Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。
既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。
より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-03T07:45:53Z) - Approximated Prompt Tuning for Vision-Language Pre-trained Models [54.326232586461614]
視覚言語による事前学習モデルでは、事前学習タスクと下流タスクのギャップを埋めるために、しばしば多くの学習可能なトークンを必要とする。
本稿では,効率的なVL転送学習を実現するために,APT(Approximated Prompt Tuning)アプローチを提案する。
論文 参考訳(メタデータ) (2023-06-27T05:43:47Z) - Building Resilience to Out-of-Distribution Visual Data via Input
Optimization and Model Finetuning [13.804184845195296]
本稿では,特定の目標視モデルに対する入力データを最適化する前処理モデルを提案する。
自律走行車におけるセマンティックセグメンテーションの文脈におけるアウト・オブ・ディストリビューションシナリオについて検討する。
提案手法により, 微調整モデルに匹敵するデータの性能を実現できることを示す。
論文 参考訳(メタデータ) (2022-11-29T14:06:35Z) - Beyond Transfer Learning: Co-finetuning for Action Localisation [64.07196901012153]
同時に、複数のアップストリームとダウンストリームのタスクで1つのモデルをトレーニングする。
共ファインタニングは、同じデータ量を使用する場合、従来のトランスファーラーニングよりも優れていることを示す。
さらに、複数のアップストリームデータセットへのアプローチを簡単に拡張して、パフォーマンスをさらに向上する方法も示しています。
論文 参考訳(メタデータ) (2022-07-08T10:25:47Z) - Model-Agnostic Multitask Fine-tuning for Few-shot Vision-Language
Transfer Learning [59.38343286807997]
未知タスクの視覚言語モデルのためのモデル非依存型マルチタスクファインチューニング(MAMF)を提案する。
モデルに依存しないメタラーニング(MAML)と比較して、MAMFは二段階最適化を捨て、一階勾配のみを使用する。
MAMFは5つのベンチマークデータセット上で、数ショットの転送学習において古典的な微調整法よりも一貫して優れていることを示す。
論文 参考訳(メタデータ) (2022-03-09T17:26:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。