Fugu-MT 論文翻訳(概要): VeCAF: VLM-empowered Collaborative Active Finetuning with Training Objective Awareness

論文の概要: VeCAF: VLM-empowered Collaborative Active Finetuning with Training Objective Awareness

arxiv url: http://arxiv.org/abs/2401.07853v1
Date: Mon, 15 Jan 2024 17:28:37 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-17 16:23:54.327766
Title: VeCAF: VLM-empowered Collaborative Active Finetuning with Training Objective Awareness
Title（参考訳）: VeCAF: 目標認識を訓練したVLMを用いた協調型アクティブファインタニング
Authors: Rongyu Zhang, Zefan Cai, Huanrui Yang, Zidong Liu, Denis Gudovskiy, Tomoyuki Okuno, Yohei Nakata, Kurt Keutzer, Baobao Chang, Yuan Du, Li Du, Shanghang Zhang
Abstract要約: PVM(Pretrained Vision Model)は、下流の視覚タスクを学習するための一般的なテクニックである。 VLMを用いた協調型アクティブファインタニング(VeCAF)を提案する。 VeCAFは、調整中のモデルのトレーニング目標を組み込むことで、パラメトリックデータ選択モデルを最適化する。
参考スコア（独自算出の注目度）: 58.40419742596087
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Finetuning a pretrained vision model (PVM) is a common technique for learning downstream vision tasks. The conventional finetuning process with the randomly sampled data points results in diminished training efficiency. To address this drawback, we propose a novel approach, VLM-empowered Collaborative Active Finetuning (VeCAF). VeCAF optimizes a parametric data selection model by incorporating the training objective of the model being tuned. Effectively, this guides the PVM towards the performance goal with improved data and computational efficiency. As vision-language models (VLMs) have achieved significant advancements by establishing a robust connection between image and language domains, we exploit the inherent semantic richness of the text embedding space and utilize text embedding of pretrained VLM models to augment PVM image features for better data selection and finetuning. Furthermore, the flexibility of text-domain augmentation gives VeCAF a unique ability to handle out-of-distribution scenarios without external augmented data. Extensive experiments show the leading performance and high efficiency of VeCAF that is superior to baselines in both in-distribution and out-of-distribution image classification tasks. On ImageNet, VeCAF needs up to 3.3x less training batches to reach the target performance compared to full finetuning and achieves 2.8% accuracy improvement over SOTA methods with the same number of batches.
Abstract（参考訳）: PVM(Pretrained Vision Model)は、下流の視覚タスクを学習するための一般的なテクニックである。ランダムなサンプルデータポイントを用いた従来の微調整処理はトレーニング効率を低下させる。この欠点に対処するため,VLMを用いた協調アクティブファインタニング(VeCAF)を提案する。 VeCAFは、調整対象モデルのトレーニング目標を組み込むことで、パラメトリックデータ選択モデルを最適化する。これにより、PVMはデータの改善と計算効率の向上によってパフォーマンス目標に向かって導かれる。視覚言語モデル(vlms)は,画像領域と言語領域間の強固な接続を確立することによって大きな進歩を遂げたため,テキスト埋め込み空間の固有の意味的豊かさを活用し,事前学習されたvlmモデルのテキスト埋め込みを活用し,pvm画像機能を強化し,データ選択と微調整を改善した。さらに、テキストドメイン拡張の柔軟性により、VeCAFは外部拡張データなしで配布外シナリオを処理できるユニークな機能を提供する。広汎な実験は、分布内および分布外画像分類タスクにおいて、ベースラインよりも優れたVeCAFの先行性能と高い効率を示す。 ImageNetでは、VeCAFは完全な微調整よりも目標性能に到達するために最大3.3倍のトレーニングバッチを必要とし、同じバッチ数を持つSOTAメソッドよりも2.8%精度が向上している。

関連論文リスト

AdaptVision: Efficient Vision-Language Models via Adaptive Visual Acquisition [21.989922235835067]
AdaptVisionは、粗いアプローチによる適応的な視覚トークン取得を可能にする効率的なVLMパラダイムである。本稿では,AdaptVisionが最先端のVLM手法よりもはるかに少ない視覚トークンを消費し,優れた性能を実現することを示す。
論文参考訳（メタデータ） (2025-12-03T13:43:30Z)
CronusVLA: Transferring Latent Motion Across Time for Multi-Frame Prediction in Manipulation [67.1520483301709]
CronusVLAはシングルフレームのVLAモデルを効率的な後トレーニング段階を通じてマルチフレームのパラダイムに拡張する統合フレームワークである。 CronusVLAはSimplerEnvの最先端のパフォーマンスを70.9%の成功率で達成し、LIBEROのOpenVLAよりも12.7%改善した。
論文参考訳（メタデータ） (2025-06-24T17:30:27Z)
Top-Down Compression: Revisit Efficient Vision Token Projection for Visual Instruction Tuning [70.57180215148125]
ビジュアルインストラクションチューニングは、大きな言語モデルで視覚世界を理解できるようにすることを目的としている。既存の手法は、精度と効率の間の難解なトレードオフに悩まされることが多い。 LLaVA-Meteorは,コア情報を妥協することなく,視覚トークンを戦略的に圧縮する手法である。
論文参考訳（メタデータ） (2025-05-17T10:22:29Z)
Underlying Semantic Diffusion for Effective and Efficient In-Context Learning [113.4003355229632]
Underlying Semantic Diffusion (US-Diffusion)は、セマンティック学習、計算効率、文脈内学習能力を高める拡張拡散モデルである。本稿では,フィードバック信号を利用したフィードバック支援学習(FAL)フレームワークを提案する。また,高雑音レベルの時間ステップで高密度サンプリングを行うためのプラグイン・アンド・プレイの効率的なサンプリング戦略(ESS)を提案する。
論文参考訳（メタデータ） (2025-03-06T03:06:22Z)
Adaptive Prompt Tuning: Vision Guided Prompt Tuning with Cross-Attention for Fine-Grained Few-Shot Learning [5.242869847419834]
コンピュータビジョンにおける微妙な分類は、限られたデータで微妙な分類を区別する必要があるため、大きな課題となる。本稿では,適応的なプロンプトチューニングにより,コントラスト言語画像事前学習モデルを強化する手法を提案する。
論文参考訳（メタデータ） (2024-12-19T08:51:01Z)
FocusLLaVA: A Coarse-to-Fine Approach for Efficient and Effective Visual Token Compression [45.37530855889661]
高解像度画像は、多モード大言語モデルに入力される視覚トークンの数を2次的に増加させる。現在の研究は、しばしば性能を犠牲にして、効率を改善するために視覚的トークン圧縮法を開発している。情報密度の低い冗長領域を圧縮する視覚誘導型サンプルラと、ユーザ指示と強く相関する視覚トークンを選択するテキスト誘導型サンプルラとを用いて、粗大な視覚トークン圧縮法を構築する。
論文参考訳（メタデータ） (2024-11-21T15:37:52Z)
ALOcc: Adaptive Lifting-based 3D Semantic Occupancy and Cost Volume-based Flow Prediction [89.89610257714006]
既存の手法は、これらのタスクの要求に応えるために高い精度を優先する。本稿では,3次元セマンティック占有率予測とフロー推定のための一連の改善点を紹介する。私たちの純粋な時間的アーキテクチャフレームワークであるALOccは、速度と精度の最適なトレードオフを実現しています。
論文参考訳（メタデータ） (2024-11-12T11:32:56Z)
CVPT: Cross-Attention help Visual Prompt Tuning adapt visual task [15.642102189777072]
Cross Visual Prompt Tuningは、新しいタイプのビジュアル微調整である。 CVPTは、プロンプトトークンと埋め込みトークンの相互アテンションを計算し、それら間のセマンティックな関係を計算する。 CVPTは、視覚タスクにおけるVPTの性能と効率を大幅に改善する。
論文参考訳（メタデータ） (2024-08-27T11:07:19Z)
IFTR: An Instance-Level Fusion Transformer for Visual Collaborative Perception [9.117534139771738]
自律運転の分野で広く認知されている技術として、マルチエージェント協調認識が出現している。現在のコラボレーティブな認識は、主にLiDAR点雲に依存しており、カメラ画像を用いた手法にはあまり注目されていない。本研究は,視覚的協調知覚のためのインスタンスレベルの融合変換器を提案する。
論文参考訳（メタデータ） (2024-07-13T11:38:15Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
Active Finetuning: Exploiting Annotation Budget in the Pretraining-Finetuning Paradigm [132.9949120482274]
本稿では,事前学習ファインタニングパラダイムにおけるアノテーションのためのサンプルの選択に焦点を当てる。本研究では,アクティブな微調整タスクのためのActiveFTと呼ばれる新しい手法を提案する。画像分類とセマンティックセグメンテーションの両方に基づくベースラインよりも優れたActiveFTの先行性能と高効率性を示す。
論文参考訳（メタデータ） (2023-03-25T07:17:03Z)
Cluster-level pseudo-labelling for source-free cross-domain facial expression recognition [94.56304526014875]
表情認識のためのSFUDA法を提案する。本手法は,自己教師付き事前学習を利用して,対象データから優れた特徴表現を学習する。提案手法の有効性を4つの適応方式で検証し,FERに適用した場合,既存のSFUDA法より一貫して優れていることを示す。
論文参考訳（メタデータ） (2022-10-11T08:24:50Z)
Feature Fusion Vision Transformer for Fine-Grained Visual Categorization [22.91753200323264]
我々は、新しい純粋なトランスベースフレームワークFeature Fusion Vision Transformer (FFVT)を提案する。各トランス層から重要なトークンを集約し、ローカル、低レベル、中レベルの情報を補う。我々は,相互注意重み付け (MAWS) と呼ばれる新しいトークン選択モジュールを設計し,ネットワークを効果的かつ効率的に識別トークンの選択に向けて誘導する。
論文参考訳（メタデータ） (2021-07-06T01:48:43Z)
Adversarial Feature Augmentation and Normalization for Visual Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文参考訳（メタデータ） (2021-03-22T20:36:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。