論文の概要: Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters
- arxiv url: http://arxiv.org/abs/2603.04341v1
- Date: Wed, 04 Mar 2026 17:59:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-05 21:29:15.441982
- Title: Hold-One-Shot-Out (HOSO) for Validation-Free Few-Shot CLIP Adapters
- Title(参考訳): バリデーションフリーFew-Shot CLIPアダプタ用ホールドワンショットアウト(HOSO)
- Authors: Chris Vorster, Mayug Maniparambil, Noel E. O'Connor, Noel Murphy, Derek Molloy,
- Abstract要約: CLIP適応におけるブレンディング比を学習するための検証不要な手法を提案する。
HOSO(HOSO-Adapter)を用いたCLIP-Adapterは、ワンショットのホールドアウトセットを用いてブレンディング比を学習する。
- 参考スコア(独自算出の注目度): 8.707753549613766
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In many CLIP adaptation methods, a blending ratio hyperparameter controls the trade-off between general pretrained CLIP knowledge and the limited, dataset-specific supervision from the few-shot cases. Most few-shot CLIP adaptation techniques report results by ablation of the blending ratio on the test set or require additional validation sets to select the blending ratio per dataset, and thus are not strictly few-shot. We present a simple, validation-free method for learning the blending ratio in CLIP adaptation. Hold-One-Shot-Out (HOSO) presents a novel approach for CLIP-Adapter-style methods to compete in the newly established validation-free setting. CLIP-Adapter with HOSO (HOSO-Adapter) learns the blending ratio using a one-shot, hold-out set, while the adapter trains on the remaining few-shot support examples. Under the validation-free few-shot protocol, HOSO-Adapter outperforms the CLIP-Adapter baseline by more than 4 percentage points on average across 11 standard few-shot datasets. Interestingly, in the 8- and 16-shot settings, HOSO-Adapter outperforms CLIP-Adapter even with the optimal blending ratio selected on the test set. Ablation studies validate the use of a one-shot hold-out mechanism, decoupled training, and improvements over the naively learnt blending ratio baseline. Code is released here: https://github.com/chris-vorster/HOSO-Adapter
- Abstract(参考訳): 多くのCLIP適応法では、ブレンディング比ハイパーパラメータは、一般的な事前訓練されたCLIP知識と、少数のケースから限定されたデータセット固有の監督とのトレードオフを制御する。
ほとんど数発のCLIP適応技術は、テストセットのブレンディング比を減らしたり、データセット毎のブレンディング比を選択するために追加のバリデーションセットを必要とすることで結果を報告しているため、厳密には少数ショットではない。
CLIP適応におけるブレンディング比を簡易かつ検証不要に学習する手法を提案する。
Hold-One-Shot-Out (HOSO)は、CLIP-Adapterスタイルのメソッドが新しく確立されたバリデーションフリー環境で競合する新しいアプローチを示す。
CLIP-Adapter with HOSO (HOSO-Adapter) はワンショットのホールドアウトセットを使用してブレンド比を学習し、アダプタは残りの数ショットサポート例をトレーニングする。
検証不要な数ショットプロトコルの下では、HOSO-Adapterは11の標準数ショットデータセットで平均で4ポイント以上、CLIP-Adapterベースラインを上回っている。
興味深いことに、8ショットと16ショットの設定では、HOSO-Adapterはテストセットで選択された最適なブレンディング比でもCLIP-Adapterより優れている。
アブレーション研究は、ワンショットホールドアウト機構の使用、脱カップリングトレーニング、およびナイーリー学習ブレンディング比ベースラインの改善を検証する。
https://github.com/chris-vorster/HOSO-Adapter
関連論文リスト
- Improving Robustness of Foundation Models in Domain Adaptation with Soup-Adapters [0.0]
複数の独立したアダプタをトレーニングし、その出力を平均化することにより、新しいモデルの性能が向上し、個々のアダプタと比較して分散シフトに対して堅牢であることを示す。
これはまた、DINOv2向けのCLIPアダプタスタイルのテクニックを探求し、この設定でCLIPと直接比較する最初の研究である。
論文 参考訳(メタデータ) (2025-07-08T09:26:10Z) - Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - CLIP's Visual Embedding Projector is a Few-shot Cornucopia [45.93202559299953]
最適化のために'external'パラメータを追加することなく、数ショットのCLIP適応のための代替手法を導入する。
視覚の埋め込みプロジェクション行列を微調整するだけで、すべてのベースラインよりも優れたパフォーマンスが得られることが分かりました。
この単純なアプローチはProLIPと呼ばれ、11個の数ショットの分類ベンチマーク、数ショットのクロスデータセットエンコーダ転送、ドメインの一般化、ベース・ツー・ニューなクラス一般化に最先端のパフォーマンスをもたらす。
論文 参考訳(メタデータ) (2024-10-07T17:59:59Z) - CLIP Adaptation by Intra-modal Overlap Reduction [1.2277343096128712]
画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。
Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
論文 参考訳(メタデータ) (2024-09-17T16:40:58Z) - CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification [3.594351309950969]
CapS-Adapterは、イメージとキャプションの両方の機能を活用して、トレーニング不要シナリオにおける既存の最先端技術を超える革新的な方法である。
提案手法は,19個のベンチマークデータセットのゼロショット分類結果に優れており,従来の先行手法よりも2.19%精度が向上している。
論文 参考訳(メタデータ) (2024-05-26T14:50:40Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Learning with Noisy Labels Using Collaborative Sample Selection and
Contrastive Semi-Supervised Learning [76.00798972439004]
Collaborative Sample Selection (CSS)は、特定されたクリーンセットからノイズの多いサンプルを削除する。
半教師付き学習において、対照的な損失を伴う協調学習機構を導入する。
論文 参考訳(メタデータ) (2023-10-24T05:37:20Z) - Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。
CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。
そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文 参考訳(メタデータ) (2022-07-19T19:12:11Z) - Tip-Adapter: Training-free CLIP-Adapter for Better Vision-Language
Modeling [78.62723847797382]
我々は、CLIPのトレーニング不要の利点を継承するだけでなく、CLIP-Adapterよりも可視もしくはより優れた性能を発揮するtextbfTraining-Free CLtextbfIP-textbfAdapter(textbfTip-Adapter)を提案する。
提案するTip-Adapterの優位性を示すために,ImageNetと他の10のデータセットの少数ショット分類の広範な実験を行った。
論文 参考訳(メタデータ) (2021-11-06T18:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。