論文の概要: Towards Realistic Unsupervised Fine-tuning with CLIP
- arxiv url: http://arxiv.org/abs/2308.12919v1
- Date: Thu, 24 Aug 2023 16:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-25 13:03:52.725469
- Title: Towards Realistic Unsupervised Fine-tuning with CLIP
- Title(参考訳): CLIPによる非教師なしファインチューニングの実現に向けて
- Authors: Jian Liang and Lijun Sheng and Zhengbo Wang and Ran He and Tieniu Tan
- Abstract要約: 我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的な微調整手法を提案する。
UEOはサンプルレベルの信頼を利用して、信頼性の低いインスタンスの条件エントロピーを最小化し、信頼性の低いインスタンスの限界エントロピーを最大化する。
UEOは一般化とアウト・オブ・ディストリビューション検出の両方の観点から,ベースライン法を超越していることを示す。
- 参考スコア(独自算出の注目度): 108.45391206730402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The emergence of vision-language models (VLMs), such as CLIP, has spurred a
significant research effort towards their application for downstream supervised
learning tasks. Although some previous studies have explored the unsupervised
fine-tuning of CLIP, they often rely on prior knowledge in the form of class
names associated with ground truth labels. In this paper, we delve into a
realistic unsupervised fine-tuning scenario by assuming that the unlabeled data
might contain out-of-distribution samples from unknown classes. Furthermore, we
emphasize the importance of simultaneously enhancing out-of-distribution
detection capabilities alongside the recognition of instances associated with
predefined class labels.
To tackle this problem, we present a simple, efficient, and effective
fine-tuning approach called Universal Entropy Optimization (UEO). UEO leverages
sample-level confidence to approximately minimize the conditional entropy of
confident instances and maximize the marginal entropy of less confident
instances. Apart from optimizing the textual prompts, UEO also incorporates
optimization of channel-wise affine transformations within the visual branch of
CLIP. Through extensive experiments conducted across 15 domains and 4 different
types of prior knowledge, we demonstrate that UEO surpasses baseline methods in
terms of both generalization and out-of-distribution detection.
- Abstract(参考訳): CLIPのような視覚言語モデル(VLM)の出現は、下流の教師あり学習タスクへの応用に向けた大きな研究を刺激している。
以前の研究では、クリップの教師なしの微調整を探求してきたが、彼らはしばしば、基底真理ラベルに関連付けられたクラス名という形で、事前の知識に依存している。
本稿では,ラベルなしのデータが未知のクラスからの分散サンプルを含む可能性があることを仮定して,教師なしの微調整シナリオを考察する。
さらに,事前定義されたクラスラベルに関連付けられたインスタンスの認識と並行して,分散検出能力の向上が重要であることを強調する。
この問題に対処するために,Universal Entropy Optimization (UEO) と呼ばれる,シンプルで効率的かつ効果的な微調整手法を提案する。
UEOはサンプルレベルの信頼を利用して、信頼性の低いインスタンスの条件エントロピーをほぼ最小化し、信頼性の低いインスタンスの限界エントロピーを最大化する。
テキストプロンプトの最適化とは別に、UEOはCLIPのビジュアルブランチ内でチャネルワイドアフィン変換の最適化も取り入れている。
15の領域にまたがる広範囲な実験と4つの異なる事前知識を通して、ueoが一般化と分散検出の両面でベースラインメソッドを上回っていることを実証した。
関連論文リスト
- Calibrating Multi-modal Representations: A Pursuit of Group Robustness
without Annotations [20.981354848227912]
CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。
微調整CLIPのための軽量表現校正法を提案する。
論文 参考訳(メタデータ) (2024-03-12T01:47:17Z) - Debiasing Large Visual Language Models [61.6896704217147]
LVLM(Large Vision-Language Models)は、コンピュータビジョンや自然言語処理において欠かせないツールとなっている。
本研究は,入力画像に先行するLarge Language Models (LLM) の影響を主に受け,生成したコンテンツに有意なバイアスが生じることを示す。
これらのバイアスを是正し、視覚情報に対するモデルの焦点をリダイレクトするために、我々は2つの単純で訓練のない戦略を導入する。
論文 参考訳(メタデータ) (2024-03-08T12:35:07Z) - Active Learning in the Predict-then-Optimize Framework: A Margin-Based
Approach [5.371816551086118]
本研究では,ラベルのないデータストリームから特徴サンプルのラベルを要求するかどうかを逐次決定する学習手法を開発した。
我々の能動学習法は,予測パラメータによって引き起こされる決定誤差によって直接情報を得る最初の方法である。
論文 参考訳(メタデータ) (2023-05-11T05:44:36Z) - M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。
これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。
提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文 参考訳(メタデータ) (2023-03-09T09:05:47Z) - Open-Set Likelihood Maximization for Few-Shot Learning [36.97433312193586]
我々はFew-Shot Open-Set Recognition (FSOSR) 問題、すなわちいくつかのラベル付きサンプルしか持たないクラスのインスタンスを分類する問題に取り組む。
提案手法では,推論時に非競合なクエリインスタンスを利用する。
既存のトランスダクティブ手法はオープンセットのシナリオではうまく動作しないという観測により,最大極大原理の一般化を提案する。
論文 参考訳(メタデータ) (2023-01-20T01:56:19Z) - Feature Diversity Learning with Sample Dropout for Unsupervised Domain
Adaptive Person Re-identification [0.0]
本稿では,ノイズの多い擬似ラベルを限定することで,より優れた一般化能力を持つ特徴表現を学習する手法を提案する。
我々は,古典的な相互学習アーキテクチャの下で,FDL(Feature Diversity Learning)と呼ばれる新しい手法を提案する。
実験の結果,提案するFDL-SDは,複数のベンチマークデータセット上での最先端性能を実現することがわかった。
論文 参考訳(メタデータ) (2022-01-25T10:10:48Z) - Improving Self-supervised Learning with Automated Unsupervised Outlier
Arbitration [83.29856873525674]
本稿では,自己教師型学習のためのビューサンプリング問題を対象とした,軽量潜在変数モデル UOTA を提案する。
本手法は,多くの主流な自己指導型学習手法に直接応用する。
論文 参考訳(メタデータ) (2021-12-15T14:05:23Z) - A Low Rank Promoting Prior for Unsupervised Contrastive Learning [108.91406719395417]
提案手法は,従来の低階の促進をコントラスト学習の枠組みに効果的に組み込む新しい確率的グラフィカルモデルを構築する。
我々の仮説は、同じインスタンスクラスに属するすべてのサンプルが、小さな次元の同じ部分空間上にあることを明示的に要求する。
実証的な証拠は、提案アルゴリズムが複数のベンチマークにおける最先端のアプローチを明らかに上回っていることを示している。
論文 参考訳(メタデータ) (2021-08-05T15:58:25Z) - An Effective Baseline for Robustness to Distributional Shift [5.627346969563955]
ディープラーニングシステムの安全なデプロイには,トレーニング中に見られるものと異なる入力のカテゴリに直面した場合,確実な予測を控えることが重要な要件である。
本論文では, 吸収の原理を用いた分布異常検出の簡便かつ高効率な手法を提案する。
論文 参考訳(メタデータ) (2021-05-15T00:46:11Z) - Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。
既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。
本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T08:35:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。