論文の概要: AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning
- arxiv url: http://arxiv.org/abs/2404.08958v1
- Date: Sat, 13 Apr 2024 10:46:11 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-16 17:53:43.841623
- Title: AMU-Tuning: Effective Logit Bias for CLIP-based Few-shot Learning
- Title(参考訳): AMU-Tuning:CLIPベースのFew-shot Learningのための効果的なログバイアス
- Authors: Yuwei Tang, Zhenyi Lin, Qilong Wang, Pengfei Zhu, Qinghua Hu,
- Abstract要約: まず、ログバイアスの観点から、CLIPに基づく数ショット学習手法を統一的な定式化して分析する。
本稿では,鍵成分の分析に基づいて,CLIPに基づく複数ショット分類のための効果的なロジットバイアスを学習するための新しいAMU-Tuning法を提案する。
- 参考スコア(独自算出の注目度): 50.78033979438031
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Recently, pre-trained vision-language models (e.g., CLIP) have shown great potential in few-shot learning and attracted a lot of research interest. Although efforts have been made to improve few-shot ability of CLIP, key factors on the effectiveness of existing methods have not been well studied, limiting further exploration of CLIP's potential in few-shot learning. In this paper, we first introduce a unified formulation to analyze CLIP-based few-shot learning methods from a perspective of logit bias, which encourages us to learn an effective logit bias for further improving performance of CLIP-based few-shot learning methods. To this end, we disassemble three key components involved in computation of logit bias (i.e., logit features, logit predictor, and logit fusion) and empirically analyze the effect on performance of few-shot classification. Based on analysis of key components, this paper proposes a novel AMU-Tuning method to learn effective logit bias for CLIP-based few-shot classification. Specifically, our AMU-Tuning predicts logit bias by exploiting the appropriate $\underline{\textbf{A}}$uxiliary features, which are fed into an efficient feature-initialized linear classifier with $\underline{\textbf{M}}$ulti-branch training. Finally, an $\underline{\textbf{U}}$ncertainty-based fusion is developed to incorporate logit bias into CLIP for few-shot classification. The experiments are conducted on several widely used benchmarks, and the results show AMU-Tuning clearly outperforms its counterparts while achieving state-of-the-art performance of CLIP-based few-shot learning without bells and whistles.
- Abstract(参考訳): 近年、事前学習された視覚言語モデル(例えばCLIP)は、数発の学習において大きな可能性を示し、多くの研究関心を集めている。
CLIPの少ショット能力を改善する努力はなされているが、既存の手法の有効性に関する重要な要因は十分に研究されておらず、CLIPのいくつかのショット学習における可能性のさらなる探究が制限されている。
本稿では、まず、ロジットバイアスの観点からCLIPベースの少ショット学習手法を統一的に解析し、より効果的なロジットバイアスを学習し、CLIPベースの少ショット学習手法の性能を向上させることを促す。
この目的のために、ロジットバイアス(ロジット特徴、ロジット予測器、ロジット融合)の計算に関わる3つの重要な要素を分解し、その効果を経験的に分析する。
本稿では,鍵成分の分析に基づいて,CLIPに基づく複数ショット分類のための効果的なロジットバイアスを学習するための新しいAMU-Tuning法を提案する。
具体的には、AMU-Tuningは適切な$\underline{\textbf{A}}$uxiliary機能を利用してロジットバイアスを予測する。
最後に、$\underline{\textbf{U}}$ncertaintyベースのフュージョンは、数ショットの分類のために、CLIPにロジットバイアスを組み込むように開発されている。
実験は、広く使用されているベンチマークで行われ、AMU-Tuningは、CLIPベースの数ショット学習の最先端のパフォーマンスをベルやホイッスルなしで達成しながら、その性能を明らかに上回っている。
関連論文リスト
- Calibrating Multi-modal Representations: A Pursuit of Group Robustness without Annotations [19.800907485589402]
CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。
微調整CLIPのための軽量表現校正法を提案する。
論文 参考訳(メタデータ) (2024-03-12T01:47:17Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Bias Mitigating Few-Shot Class-Incremental Learning [17.185744533050116]
クラス増分学習は,限定された新規クラスサンプルを用いて,新規クラスを継続的に認識することを目的としている。
最近の手法では,段階的なセッションで特徴抽出器を微調整することにより,ベースクラスとインクリメンタルクラスの精度の不均衡を緩和している。
本研究では,FSCIL問題におけるモデルバイアスを緩和する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-02-01T10:37:41Z) - Tuning Pre-trained Model via Moment Probing [62.445281364055795]
本稿では,LP の可能性を探るため,新しい Moment Probing (MP) 法を提案する。
MPは、最終特徴の平均に基づいて線形分類ヘッドを実行する。
当社のMPはLPを著しく上回り、トレーニングコストの低い相手と競争しています。
論文 参考訳(メタデータ) (2023-07-21T04:15:02Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Do Pre-trained Models Benefit Equally in Continual Learning? [25.959813589169176]
既存の継続学習(CL)の研究は主に、ゼロから訓練されたモデルのアルゴリズムの開発に費やされている。
コントリビュートベンチマークのパフォーマンスは高いが、これらのアルゴリズムは現実のシナリオで劇的なパフォーマンス低下を示す。
本稿では,CLに対する事前学習の体系的導入を提唱する。
論文 参考訳(メタデータ) (2022-10-27T18:03:37Z) - Learning with Multiclass AUC: Theory and Algorithms [141.63211412386283]
ROC曲線 (AUC) の下の領域は、不均衡学習やレコメンダシステムといった問題に対するよく知られたランキング基準である。
本稿では,マルチクラスAUCメトリクスを最適化することで,多クラススコアリング関数を学習する問題について検討する。
論文 参考訳(メタデータ) (2021-07-28T05:18:10Z) - ReMP: Rectified Metric Propagation for Few-Shot Learning [67.96021109377809]
修正されたメートル法空間は、トレーニングからテストまでのメートル法一貫性を維持するために学習される。
多くの分析結果から、目的の単純な修正がかなりの性能向上をもたらすことが示唆された。
提案したReMPは効率的で効率的であり、様々な標準的な数発の学習データセットで芸術の状態を上回ります。
論文 参考訳(メタデータ) (2020-12-02T00:07:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。