Fugu-MT 論文翻訳(概要): Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization

論文の概要: Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization

arxiv url: http://arxiv.org/abs/2308.12919v2
Date: Thu, 18 Jul 2024 09:14:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-07-20 00:12:03.745431
Title: Realistic Unsupervised CLIP Fine-tuning with Universal Entropy Optimization
Title（参考訳）: ユニバーサルエントロピー最適化を用いた非教師なしCLIPファインタニング
Authors: Jian Liang, Lijun Sheng, Zhengbo Wang, Ran He, Tieniu Tan,
Abstract要約: 本稿では,未知のクラスにおける配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて考察する。特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的なアプローチを提案する。
参考スコア（独自算出の注目度）: 101.08992036691673
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of vision-language models, such as CLIP, has spurred a significant research effort towards their application for downstream supervised learning tasks. Although some previous studies have explored the unsupervised fine-tuning of CLIP, they often rely on prior knowledge in the form of class names associated with ground truth labels. This paper explores a realistic unsupervised fine-tuning scenario, considering the presence of out-of-distribution samples from unknown classes within the unlabeled data. In particular, we focus on simultaneously enhancing out-of-distribution detection and the recognition of instances associated with known classes. To tackle this problem, we present a simple, efficient, and effective approach called Universal Entropy Optimization (UEO). UEO leverages sample-level confidence to approximately minimize the conditional entropy of confident instances and maximize the marginal entropy of less confident instances. Apart from optimizing the textual prompt, UEO incorporates optimization of channel-wise affine transformations within the visual branch of CLIP. Extensive experiments across 15 domains and 4 different types of prior knowledge validate the effectiveness of UEO compared to baseline methods. The code is publicly available at \url{https://github.com/tim-learn/UEO}.
Abstract（参考訳）: CLIPのような視覚言語モデルの出現は、下流の教師あり学習タスクへの応用に向けた大きな研究を刺激している。これまでのいくつかの研究では、CLIPの教師なし微調整を研究しているが、それらはしばしば、基底真理ラベルに関連付けられたクラス名という形で、事前の知識に依存している。本稿では,未ラベルデータ中の未知のクラスからの配布外サンプルの存在を考慮し,教師なしの微調整シナリオについて検討する。特に,分布外検出と既知のクラスに関連するインスタンスの認識を同時に強化することに注力する。この問題に対処するため,Universal Entropy Optimization (UEO) と呼ばれるシンプルで効率的かつ効果的な手法を提案する。 UEOはサンプルレベルの信頼を利用して、信頼性の低いインスタンスの条件エントロピーをほぼ最小化し、信頼性の低いインスタンスの限界エントロピーを最大化する。テキストプロンプトの最適化とは別に、UEOはCLIPのビジュアルブランチにチャネルワイドアフィン変換の最適化を取り入れている。 15のドメインと4種類の事前知識にまたがる広範囲な実験は、ベースライン法と比較してUEOの有効性を検証した。コードは \url{https://github.com/tim-learn/UEO} で公開されている。

関連論文リスト

Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-31T09:42:42Z)
Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文参考訳（メタデータ） (2024-11-26T00:15:37Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Density Distribution-based Learning Framework for Addressing Online Continual Learning Challenges [4.715630709185073]
オンライン連続学習のための密度分布に基づく学習フレームワークを提案する。我々のフレームワークは、より優れた平均精度と時間空間効率を実現する。提案手法は, CL のアプローチにおいて, 有意な差で優れる。
論文参考訳（メタデータ） (2023-11-22T09:21:28Z)
CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。 CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文参考訳（メタデータ） (2023-05-15T14:42:02Z)
M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文参考訳（メタデータ） (2023-03-09T09:05:47Z)
Streaming LifeLong Learning With Any-Time Inference [36.3326483579511]
本稿では,1回の入力サンプルが各タイムステップ,シングルパス,クラスインクリメンタル,任意のタイミングで評価対象に到達する,新たな生涯学習手法を提案する。また,スナップショット自己蒸留方式の暗黙正則化器を提案する。我々の経験的評価と改善は,提案手法が先行研究を大きなマージンで上回ることを示すものである。
論文参考訳（メタデータ） (2023-01-27T18:09:19Z)
Local Learning Matters: Rethinking Data Heterogeneity in Federated Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文参考訳（メタデータ） (2021-11-28T19:03:39Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-02-19T08:35:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。