論文の概要: EfficientFSL: Enhancing Few-Shot Classification via Query-Only Tuning in Vision Transformers
- arxiv url: http://arxiv.org/abs/2601.08499v2
- Date: Thu, 15 Jan 2026 02:50:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-16 13:33:41.409526
- Title: EfficientFSL: Enhancing Few-Shot Classification via Query-Only Tuning in Vision Transformers
- Title(参考訳): EfficientFSL:視覚変換器のクエリオンリーチューニングによるFew-Shot分類の高速化
- Authors: Wenwen Liao, Hang Ruan, Jianbo Yu, Bing Song, YuansongWang, Xiaofeng Yang,
- Abstract要約: Vision Transformers (ViTs) のような大型モデルは、ResNetのような小さなアーキテクチャに比べて、数ショットの分類において顕著な優位性を示している。
本稿では,クエリのみの微調整フレームワークであるEfficientFSLを提案する。
最小限のトレーニング可能なパラメータで、EfficientFSLは4つのドメイン内のいくつかのショットデータセットと6つのクロスドメインデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 4.880377460177786
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large models such as Vision Transformers (ViTs) have demonstrated remarkable superiority over smaller architectures like ResNet in few-shot classification, owing to their powerful representational capacity. However, fine-tuning such large models demands extensive GPU memory and prolonged training time, making them impractical for many real-world low-resource scenarios. To bridge this gap, we propose EfficientFSL, a query-only fine-tuning framework tailored specifically for few-shot classification with ViT, which achieves competitive performance while significantly reducing computational overhead. EfficientFSL fully leverages the knowledge embedded in the pre-trained model and its strong comprehension ability, achieving high classification accuracy with an extremely small number of tunable parameters. Specifically, we introduce a lightweight trainable Forward Block to synthesize task-specific queries that extract informative features from the intermediate representations of the pre-trained model in a query-only manner. We further propose a Combine Block to fuse multi-layer outputs, enhancing the depth and robustness of feature representations. Finally, a Support-Query Attention Block mitigates distribution shift by adjusting prototypes to align with the query set distribution. With minimal trainable parameters, EfficientFSL achieves state-of-the-art performance on four in-domain few-shot datasets and six cross-domain datasets, demonstrating its effectiveness in real-world applications.
- Abstract(参考訳): ViT(Vision Transformers)のような大型モデルは、ResNetのような小さなアーキテクチャに比べて、強力な表現能力のため、数ショットの分類において顕著な優位性を示している。
しかし、そのような大規模なモデルを微調整するには、広範囲なGPUメモリと長期のトレーニング時間が必要であるため、多くの現実世界の低リソースシナリオでは現実的ではない。
このギャップを埋めるため,クエリのみの微調整フレームワークであるEfficientFSLを提案する。
効率的なFSLは、事前学習モデルに埋め込まれた知識と強力な理解能力を完全に活用し、非常に少数のチューナブルパラメータで高い分類精度を達成する。
具体的には,タスク固有のクエリを合成し,事前学習されたモデルの中間表現から情報的特徴をクエリのみに抽出する,軽量なトレーニング可能なフォワードブロックを提案する。
さらに,多層出力を融合するコンビネートブロックを提案し,特徴表現の深さとロバスト性を高める。
最後に、Support-Query Attention Blockは、クエリセットの配布に合わせてプロトタイプを調整することで、分散シフトを緩和する。
最小限のトレーニング可能なパラメータで、EfficientFSLは4つのドメイン内のいくつかのショットデータセットと6つのクロスドメインデータセットで最先端のパフォーマンスを達成し、現実世界のアプリケーションでその効果を実証する。
関連論文リスト
- Accelerate Scaling of LLM Finetuning via Quantifying the Coverage and Depth of Instruction Set [37.26992936545316]
スーパーバイドファインチューニング(SFT)に使用されるデータのスケーリングは、モデル性能の比例的なゲインを保証するものではない。
この研究は、SFTスケーラビリティを管理する2つの基本的なデータセット特性を特定する。
モデルに依存しないデータ選択フレームワークである textbfInformation Landscape Approximation (ILA) を提案する。
論文 参考訳(メタデータ) (2025-09-08T09:22:57Z) - PointLoRA: Low-Rank Adaptation with Token Selection for Point Cloud Learning [54.99373314906667]
ポイントクラウドのための自己教師付き表現学習は、様々なタスクで事前訓練されたモデルパフォーマンスを改善する効果を実証した。
事前訓練されたモデルは複雑さが増すにつれて、下流のアプリケーションに完全に微調整を施すには、かなりの計算資源とストレージ資源が必要である。
そこで我々は,低ランク適応(LoRA)とマルチスケールトークン選択を併用した簡易かつ効果的なPointLoRAを提案する。
論文 参考訳(メタデータ) (2025-04-22T16:41:21Z) - LIFT: Latent Implicit Functions for Task- and Data-Agnostic Encoding [4.759109475818876]
Implicit Neural Representations (INR)は、多様なデータドメインをまたいだタスクモデリングを統合するための強力なパラダイムであることが証明されている。
本稿では,メタラーニングによるマルチスケール情報をキャプチャする新しい高性能フレームワークLIFTを紹介する。
また、残差接続と表現頻度符号化を組み込んだLIFTの強化版であるReLIFTについても紹介する。
論文 参考訳(メタデータ) (2025-03-19T17:00:58Z) - Parameter-Efficient and Memory-Efficient Tuning for Vision Transformer: A Disentangled Approach [87.8330887605381]
本稿では,学習可能なパラメータをわずかに限定して,事前学習した視覚変換器を下流認識タスクに適用する方法を示す。
学習可能で軽量なモジュールを用いてタスク固有のクエリを合成する。
本手法はメモリ制約下での最先端性能を実現し,実環境における適用性を示す。
論文 参考訳(メタデータ) (2024-07-09T15:45:04Z) - SLoRA: Federated Parameter Efficient Fine-Tuning of Language Models [28.764782216513037]
FL(Federated Learning)は、FLエッジクライアントの分散データとプライベートデータの恩恵を受けることができる。
異種データシナリオにおけるLoRAの重要な制約を克服するSLoRAという手法を提案する。
実験の結果,SLoRAは完全微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2023-08-12T10:33:57Z) - Parameter-efficient Tuning of Large-scale Multimodal Foundation Model [68.24510810095802]
我々はこれらの課題を克服するために、クロスモーダル転送(Aurora)のための優雅なプロンプトフレームワークを提案する。
既存のアーキテクチャの冗長性を考慮すると、まずモード近似を用いて0.1Mのトレーニング可能なパラメータを生成し、マルチモーダルプロンプトチューニングを実装する。
6つのクロスモーダルベンチマークの徹底的な評価は、最先端のベンチマークを上回るだけでなく、完全な微調整アプローチよりも優れていることを示している。
論文 参考訳(メタデータ) (2023-05-15T06:40:56Z) - Exploring Efficient Few-shot Adaptation for Vision Transformers [70.91692521825405]
そこで本稿では,Few-shot LearningタスクにおけるVTの微調整を容易にするトランスフォーマーチューニング(eTT)手法を提案する。
新しく発表されたAttentive Prefix Tuning(APT)とDomain Residual Adapter(DRA)の主な新機能
我々は,我々のモデルの有効性を示す広範囲な実験を行った。
論文 参考訳(メタデータ) (2023-01-06T08:42:05Z) - FiT: Parameter Efficient Few-shot Transfer Learning for Personalized and
Federated Image Classification [47.24770508263431]
画像分類における要件を満たすFiLM Transfer (FiT) を開発した。
FiTは、大規模な画像データセットで事前トレーニングされた固定バックボーンの上に、自動的に設定されたNaive Bayes分類器を使用する。
本研究では, 最先端のBig Transfer (BiT) アルゴリズムよりも, ローショット, 挑戦的なVTAB-1kベンチマークにおいて, 高い分類精度が得られることを示す。
論文 参考訳(メタデータ) (2022-06-17T10:17:20Z) - Coreference Resolution without Span Representations [20.84150608402576]
我々は,スパン表現や手作り機能,NLPへの依存を取り除く軽量なコア参照モデルを導入する。
我々のモデルは現行のエンドツーエンドモデルと競合するが、よりシンプルで効率的である。
論文 参考訳(メタデータ) (2021-01-02T11:46:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。