論文の概要: FACT: A Simple and Efficient Framework for Active Finetuning
- arxiv url: http://arxiv.org/abs/2606.02079v1
- Date: Mon, 01 Jun 2026 11:08:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.880354
- Title: FACT: A Simple and Efficient Framework for Active Finetuning
- Title(参考訳): FACT: アクティブファインタニングのためのシンプルで効率的なフレームワーク
- Authors: Wenshuai Xu, You Song, Yuzhuo Cui, Minjie Ren, Qingjie Liu, Zhenghui Hu,
- Abstract要約: 効率性と簡易性を両立した3相階層型ファインタニングフレームワークFACTを提案する。
低サンプリング率下では,CIFAR10,CIFAR100,ImageNet-1kベンチマークのViTモデルでは20%以上の顕著な性能向上を実現している。
この体系的なアプローチは、パラメータ効率を維持しながら、新しい最先端のパフォーマンスを確立し、ラベル付きデータが不足している場合に特に有効であることを示す。
- 参考スコア(独自算出の注目度): 23.983494767170644
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The main goal of active finetuning is to improve a pretrained model's performance on a specific task or domain by finetuning it with carefully selected informative or challenging data. Previous research has predominantly focused on the active aspect (i.e., data selection) while uniformly employing full finetuning for model adaptation, which inevitably distorts pretrained features due to distribution shift. This issue becomes particularly pronounced when the model size is large relative to the finetuning data quantity, leading to heightened overfitting risks. To address this critical gap, we formally outline the FiAF task that emphasizes systematic exploration of finetuning methodologies in active learning. We propose FACT, a three-phase hierarchical finetuning framework featuring both efficiency and simplicity, specifically designed for active finetuning scenarios. Our comprehensive experiments span: (1) Three major dataset categories encompassing classic (CIFAR10, CIFAR100, ImageNet-1k), imbalanced (CIFAR10-LT, CIFAR100-LT), and fine-grained (StanfordCars, FGVCAircraft) image classification datasets, each evaluated under 3-5 distinct sampling ratios; (2) Diverse pretrained architectures including Convolutional Neural Network (ConvNeXt), Vision Transformer (ViT), and Vision LSTM (ViL) networks; (3) A systematic investigation of frozen feature augmentation (FroFA) strategies. (4) A comprehensive and rigorous analysis of efficiency and generalizability. The results demonstrate significant improvements with strong generalization and robustness. Notably, under low sampling ratios, our framework achieves remarkable performance gains of over 20% on the ViT model for CIFAR10, CIFAR100, and ImageNet-1k benchmarks. This systematic approach establishes new state-of-the-art performance while maintaining parameter efficiency, proving particularly effective when labeled data is scarce.
- Abstract(参考訳): アクティブな微調整の主な目的は、慎重に選択された情報的または挑戦的なデータで微調整することで、特定のタスクやドメイン上での事前訓練されたモデルのパフォーマンスを改善することである。
従来の研究は、主にアクティブな側面(すなわちデータ選択)に焦点を当ててきたが、モデル適応に完全な微調整を採用しており、分散シフトによって必然的に歪曲した特徴を歪ませている。
この問題は、モデルのサイズが微調整データ量に比べて大きいと特に顕著になり、過剰適合リスクが高くなる。
この重要なギャップに対処するために、我々は、アクティブラーニングにおける微調整方法論の体系的な探索を強調するFIFタスクを正式に概説する。
本稿では,能動型ファインタニングシナリオに特化して設計された,効率性と簡易性を両立した3相階層型ファインタニングフレームワークFACTを提案する。
1)古典的(CIFAR10, CIFAR100, ImageNet-1k)、不均衡(CIFAR10-LT, CIFAR100-LT)、きめ細かい(StanfordCars, FGVCAircraft)画像分類データセットを含む3つの主要なデータセットカテゴリ、(2)畳み込みニューラルネットワーク(ConvNeXt)、ビジョントランスフォーマー(ViT)、ビジョンLSTM(ViL)ネットワークを含む様々な事前学習アーキテクチャ、(3)凍結機能増強(FroFA)戦略の体系的検討。
(4)効率と一般化性に関する包括的で厳密な分析。
その結果,強い一般化とロバスト性で大幅な改善が得られた。
特に, 低サンプリング率下では, CIFAR10, CIFAR100, ImageNet-1kベンチマークのViTモデルにおいて, 20%以上の顕著な性能向上を実現している。
この体系的なアプローチは、パラメータ効率を維持しながら、新しい最先端のパフォーマンスを確立し、ラベル付きデータが不足している場合に特に有効であることを示す。
関連論文リスト
- Adapting General-Purpose Foundation Models for X-ray Ptychography in Low-Data Regimes [8.748610895973075]
PtychoBenchはptychographic analysisの新しいベンチマークである。
我々は、SFT(Supervised Fine-Tuning)とICL(In-Context Learning)の2つの専門化戦略を比較した。
その結果,最適な特殊化経路はタスク依存であることが判明した。
論文 参考訳(メタデータ) (2025-11-04T11:43:05Z) - 15,500 Seconds: Lean UAV Classification Using EfficientNet and Lightweight Fine-Tuning [2.3354223046061016]
本稿では,UAV音声分類におけるデータ不足の課題について,先行作業の拡大による検討を行う。
私たちは、31種類のドローンにまたがる3,100UAVオーディオクリップ(15,500秒)のカスタムデータセットを使用します。
5倍のクロスバリデーション,精度評価,トレーニング効率,堅牢性試験を行った。
論文 参考訳(メタデータ) (2025-05-21T21:53:19Z) - Visual Fourier Prompt Tuning [63.66866445034855]
本稿では,大規模なトランスフォーマーモデルに適用するための汎用的で効果的な方法として,Visual Fourier Prompt Tuning (VFPT)法を提案する。
提案手法では,高速フーリエ変換を即時埋め込みに取り入れ,空間領域情報と周波数領域情報の両方を調和的に検討する。
提案手法は,2つのベンチマークにおいて,現状のベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-11-02T18:18:35Z) - VeCAF: Vision-language Collaborative Active Finetuning with Training Objective Awareness [56.87603097348203]
VeCAFはラベルと自然言語アノテーションを使用して、PVMの微調整のためのパラメトリックデータ選択を行う。
VeCAFは微調整の目的を取り入れて重要なデータポイントを選択し、PVMをより高速な収束に向けて効果的に導く。
ImageNetでは、VeCAFは最大3.3倍のトレーニングバッチを使用して、完全な微調整に比べて目標のパフォーマンスに到達する。
論文 参考訳(メタデータ) (2024-01-15T17:28:37Z) - GOHSP: A Unified Framework of Graph and Optimization-based Heterogeneous
Structured Pruning for Vision Transformer [76.2625311630021]
視覚変換器(ViT)は、様々なコンピュータビジョンタスクにおいて非常に印象的な経験的性能を示している。
この問題を緩和するために、構造化プルーニングはモデルサイズを圧縮し、実用的な効率を実現するための有望な解決策である。
グラフと最適化に基づく構造的プルーニング(Structured Pruning)を統合化したフレームワークであるGOHSPを提案する。
論文 参考訳(メタデータ) (2023-01-13T00:40:24Z) - Adversarial Feature Augmentation and Normalization for Visual
Recognition [109.6834687220478]
最近のコンピュータビジョンの進歩は、分類モデルの一般化能力を改善するために、逆データ拡張を利用する。
本稿では,中間的特徴埋め込みにおける敵対的拡張を提唱する効率的かつ効率的な代替手法を提案する。
代表的なバックボーンネットワークを用いて,多様な視覚認識タスクにまたがる提案手法を検証する。
論文 参考訳(メタデータ) (2021-03-22T20:36:34Z) - Stochastic Optimization of Plain Convolutional Neural Networks with
Simple methods [0.0]
我々は、より優れたパフォーマンスを得るために協調して機能する正規化手法の組み合わせを示す。
5つの有名なデータセットにモデルを適用することにより,これらの手法を検証・評価した。
論文 参考訳(メタデータ) (2020-01-24T01:20:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。