Fugu-MT 論文翻訳(概要): Towards Realistic Unsupervised Fine-tuning with CLIP

論文の概要: Towards Realistic Unsupervised Fine-tuning with CLIP

arxiv url: http://arxiv.org/abs/2308.12919v1
Date: Thu, 24 Aug 2023 16:47:17 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-25 13:03:52.725469
Title: Towards Realistic Unsupervised Fine-tuning with CLIP
Title（参考訳）: CLIPによる非教師なしファインチューニングの実現に向けて
Authors: Jian Liang and Lijun Sheng and Zhengbo Wang and Ran He and Tieniu Tan
Abstract要約: 我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的な微調整手法を提案する。 UEOはサンプルレベルの信頼を利用して、信頼性の低いインスタンスの条件エントロピーを最小化し、信頼性の低いインスタンスの限界エントロピーを最大化する。 UEOは一般化とアウト・オブ・ディストリビューション検出の両方の観点から,ベースライン法を超越していることを示す。
参考スコア（独自算出の注目度）: 108.45391206730402
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The emergence of vision-language models (VLMs), such as CLIP, has spurred a significant research effort towards their application for downstream supervised learning tasks. Although some previous studies have explored the unsupervised fine-tuning of CLIP, they often rely on prior knowledge in the form of class names associated with ground truth labels. In this paper, we delve into a realistic unsupervised fine-tuning scenario by assuming that the unlabeled data might contain out-of-distribution samples from unknown classes. Furthermore, we emphasize the importance of simultaneously enhancing out-of-distribution detection capabilities alongside the recognition of instances associated with predefined class labels. To tackle this problem, we present a simple, efficient, and effective fine-tuning approach called Universal Entropy Optimization (UEO). UEO leverages sample-level confidence to approximately minimize the conditional entropy of confident instances and maximize the marginal entropy of less confident instances. Apart from optimizing the textual prompts, UEO also incorporates optimization of channel-wise affine transformations within the visual branch of CLIP. Through extensive experiments conducted across 15 domains and 4 different types of prior knowledge, we demonstrate that UEO surpasses baseline methods in terms of both generalization and out-of-distribution detection.
Abstract（参考訳）: CLIPのような視覚言語モデル(VLM)の出現は、下流の教師あり学習タスクへの応用に向けた大きな研究を刺激している。以前の研究では、クリップの教師なしの微調整を探求してきたが、彼らはしばしば、基底真理ラベルに関連付けられたクラス名という形で、事前の知識に依存している。本稿では,ラベルなしのデータが未知のクラスからの分散サンプルを含む可能性があることを仮定して,教師なしの微調整シナリオを考察する。さらに,事前定義されたクラスラベルに関連付けられたインスタンスの認識と並行して,分散検出能力の向上が重要であることを強調する。この問題に対処するために,Universal Entropy Optimization (UEO) と呼ばれる,シンプルで効率的かつ効果的な微調整手法を提案する。 UEOはサンプルレベルの信頼を利用して、信頼性の低いインスタンスの条件エントロピーをほぼ最小化し、信頼性の低いインスタンスの限界エントロピーを最大化する。テキストプロンプトの最適化とは別に、UEOはCLIPのビジュアルブランチ内でチャネルワイドアフィン変換の最適化も取り入れている。 15の領域にまたがる広範囲な実験と4つの異なる事前知識を通して、ueoが一般化と分散検出の両面でベースラインメソッドを上回っていることを実証した。

関連論文リスト

Multi-Prompt Progressive Alignment for Multi-Source Unsupervised Domain Adaptation [73.40696661117408]
未ラベルの下流タスクにCLIPを適用するためのプログレッシブアライメント戦略を提案する。私たちはアプローチをMP2Aと名付け、ImageCLEF、Office-Home、そして最も難しいDomainNetという3つの人気のあるUDAベンチマークでテストします。実験によると、MP2Aは最新のCLIPベースのMS-UDAアプローチと比較して最先端のパフォーマンスを実現している。
論文参考訳（メタデータ） (2025-07-31T09:42:42Z)
Words Matter: Leveraging Individual Text Embeddings for Code Generation in CLIP Test-Time Adaptation [21.20806568508201]
テスト時推論において視覚言語モデル(VLM)が遭遇する分布ドリフトを軽減するために,クラステキスト情報を活用する方法を示す。本稿では,ラベル割り当て問題の固定セントロイドとしてジェネリッククラステキスト埋め込みを利用して,テスト時間サンプルの擬似ラベルを生成することを提案する。多様な複雑性を示す複数の人気のあるテスト時間適応ベンチマークの実験は、CLIP-OTの優位性を実証的に示している。
論文参考訳（メタデータ） (2024-11-26T00:15:37Z)
In-context Demonstration Matters: On Prompt Optimization for Pseudo-Supervision Refinement [71.60563181678323]
大規模言語モデル(LLM)は様々なタスクで大きな成功を収めており、生成品質をさらに向上させるためには微調整が必要である場合もある。これらの課題に対処する直接的な解決策は、教師なしの下流タスクから高信頼のデータを生成することである。本稿では,プロンプトと全体的な擬似スーパービジョンを両立させる新しい手法,擬似教師付きデモアライメント・アライメント・アライメント・プロンプト・最適化(PAPO)アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-10-04T03:39:28Z)
Density Distribution-based Learning Framework for Addressing Online Continual Learning Challenges [4.715630709185073]
オンライン連続学習のための密度分布に基づく学習フレームワークを提案する。我々のフレームワークは、より優れた平均精度と時間空間効率を実現する。提案手法は, CL のアプローチにおいて, 有意な差で優れる。
論文参考訳（メタデータ） (2023-11-22T09:21:28Z)
CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。 CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文参考訳（メタデータ） (2023-05-15T14:42:02Z)
M-Tuning: Prompt Tuning with Mitigated Label Bias in Open-Set Scenarios [103.6153593636399]
緩和ラベルバイアス(M-Tuning)を用いた視覚言語プロンプトチューニング手法を提案する。これはWordNetからのオープンワードを導入し、クローズドセットラベルワードのみからもっと多くのプロンプトテキストを形成する単語の範囲を広げ、シミュレートされたオープンセットシナリオでプロンプトをチューニングする。提案手法は,様々なスケールのデータセット上で最高の性能を達成し,広範囲にわたるアブレーション研究もその有効性を検証した。
論文参考訳（メタデータ） (2023-03-09T09:05:47Z)
Streaming LifeLong Learning With Any-Time Inference [36.3326483579511]
本稿では,1回の入力サンプルが各タイムステップ,シングルパス,クラスインクリメンタル,任意のタイミングで評価対象に到達する,新たな生涯学習手法を提案する。また,スナップショット自己蒸留方式の暗黙正則化器を提案する。我々の経験的評価と改善は,提案手法が先行研究を大きなマージンで上回ることを示すものである。
論文参考訳（メタデータ） (2023-01-27T18:09:19Z)
Local Learning Matters: Rethinking Data Heterogeneity in Federated Learning [61.488646649045215]
フェデレートラーニング(FL)は、クライアントのネットワーク(エッジデバイス)でプライバシ保護、分散ラーニングを行うための有望な戦略である。
論文参考訳（メタデータ） (2021-11-28T19:03:39Z)
DEALIO: Data-Efficient Adversarial Learning for Imitation from Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。よりデータ効率の高いifOアルゴリズムを提案する。
論文参考訳（メタデータ） (2021-03-31T23:46:32Z)
Progressive Identification of True Labels for Partial-Label Learning [112.94467491335611]
部分ラベル学習(Partial-label Learning, PLL)は、典型的な弱教師付き学習問題であり、各トレーニングインスタンスには、真のラベルである候補ラベルのセットが設けられている。既存のほとんどの手法は、特定の方法で解決しなければならない制約付き最適化として精巧に設計されており、計算複雑性をビッグデータにスケールアップするボトルネックにしている。本稿では,モデルと最適化アルゴリズムの柔軟性を備えた分類器の新しいフレームワークを提案する。
論文参考訳（メタデータ） (2020-02-19T08:35:15Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。