論文の概要: Calibrating Multi-modal Representations: A Pursuit of Group Robustness
without Annotations
- arxiv url: http://arxiv.org/abs/2403.07241v1
- Date: Tue, 12 Mar 2024 01:47:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 23:12:57.478058
- Title: Calibrating Multi-modal Representations: A Pursuit of Group Robustness
without Annotations
- Title(参考訳): マルチモーダル表現のキャリブレーション:アノテーションなしのグループロバストネスの追求
- Authors: Chenyu You, Yifei Min, Weicheng Dai, Jasjeet S. Sekhon, Lawrence
Staib, James S. Duncan
- Abstract要約: CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向にある。
微調整CLIPのための軽量表現校正法を提案する。
- 参考スコア(独自算出の注目度): 20.981354848227912
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Fine-tuning pre-trained vision-language models, like CLIP, has yielded
success on diverse downstream tasks. However, several pain points persist for
this paradigm: (i) directly tuning entire pre-trained models becomes both
time-intensive and computationally costly. Additionally, these tuned models
tend to become highly specialized, limiting their practicality for real-world
deployment; (ii) recent studies indicate that pre-trained vision-language
classifiers may overly depend on spurious features -- patterns that correlate
with the target in training data, but are not related to the true labeling
function; and (iii) existing studies on mitigating the reliance on spurious
features, largely based on the assumption that we can identify such features,
does not provide definitive assurance for real-world applications. As a
piloting study, this work focuses on exploring mitigating the reliance on
spurious features for CLIP without using any group annotation. To this end, we
systematically study the existence of spurious correlation on CLIP and
CILP+ERM. We first, following recent work on Deep Feature Reweighting (DFR),
verify that last-layer retraining can greatly improve group robustness on
pretrained CLIP. In view of them, we advocate a lightweight representation
calibration method for fine-tuning CLIP, by first generating a calibration set
using the pretrained CLIP, and then calibrating representations of samples
within this set through contrastive learning, all without the need for group
labels. Extensive experiments and in-depth visualizations on several benchmarks
validate the effectiveness of our proposals, largely reducing reliance and
significantly boosting the model generalization.
- Abstract(参考訳): CLIPのような微調整済みの視覚言語モデルは、さまざまな下流タスクで成功している。
しかし、このパラダイムにはいくつかの痛点が残る。
i) 事前学習されたモデルを直接チューニングすることは、時間集約的かつ計算コストがかかる。
さらに、これらの調整されたモデルは高度に専門化され、実際の展開の実用性が制限される傾向がある。
(ii)最近の研究では、事前訓練された視覚言語分類器は、トレーニングデータのターゲットと相関するが真のラベリング機能とは関係のない、スプリアスな特徴に過度に依存している可能性がある。)
(iii)スプリアスの特徴への依存の緩和に関する既存の研究は、主にそのような特徴を識別できるという仮定に基づいており、現実世界のアプリケーションに対する確固たる保証を提供していない。
パイロット研究として本研究は,グループアノテーションを使わずに,クリップのスプリアス機能に依存することの軽減に重点を置いている。
そこで本研究では,CLIPとCILP+ERMの相互関係を系統的に検討した。
Deep Feature Reweighting (DFR) に関する最近の研究に続いて、最終層再トレーニングが事前訓練されたCLIPにおけるグループロバスト性を大幅に改善できることを確認した。
これらの観点から,まず,事前学習したCLIPを用いてキャリブレーションセットを生成し,その後,コントラスト学習を通じて,グループラベルを必要とせずに,このセット内のサンプルのキャリブレーションをキャリブレーションする。
複数のベンチマークで大規模な実験と詳細な可視化を行い,提案手法の有効性を検証した。
関連論文リスト
- Take the Bull by the Horns: Hard Sample-Reweighted Continual Training
Improves LLM Generalization [165.98557106089777]
大きな言語モデル(LLM)の能力を高めることが大きな課題だ。
本研究は,従来の事前学習データセットを用いたLCMの光連続訓練に関する実証的戦略から始まった。
次に、この戦略をインスタンス重み付け分散ロバスト最適化の原則化されたフレームワークに定式化します。
論文 参考訳(メタデータ) (2024-02-22T04:10:57Z) - Robust Fine-Tuning of Vision-Language Models for Domain Generalization [6.7181844004432385]
ファンデーションモデルは、分散シフトの下で、印象的なゼロショット推論能力とロバスト性を持っている。
一般的な視覚言語基盤モデルCLIPの微調整のための新しいレシピを提案する。
私たちの実験では、ゼロショットCLIPは、より複雑なベンチマークでトレーニング済みのビジョンモデルのパフォーマンスと一致しないが、少数ショットCLIPの微調整は、ビジョンのみのパフォーマンスよりも優れていることを示した。
論文 参考訳(メタデータ) (2023-11-03T20:50:40Z) - Towards Realistic Unsupervised Fine-tuning with CLIP [108.45391206730402]
我々はUniversal Entropy Optimization(UEO)と呼ばれるシンプルで効率的で効果的な微調整手法を提案する。
UEOはサンプルレベルの信頼を利用して、信頼性の低いインスタンスの条件エントロピーを最小化し、信頼性の低いインスタンスの限界エントロピーを最大化する。
UEOは一般化とアウト・オブ・ディストリビューション検出の両方の観点から,ベースライン法を超越していることを示す。
論文 参考訳(メタデータ) (2023-08-24T16:47:17Z) - RanPAC: Random Projections and Pre-trained Models for Continual Learning [59.07316955610658]
継続学習(CL)は、古いタスクを忘れずに、非定常データストリームで異なるタスク(分類など)を学習することを目的としている。
本稿では,事前学習モデルを用いたCLの簡潔かつ効果的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-07-05T12:49:02Z) - Continual Learners are Incremental Model Generalizers [70.34479702177988]
本稿では,継続学習モデル(CL)が事前学習者に与える影響を幅広く研究する。
その結果, 微調整性能が著しく低下することなく, 表現の伝達品質が徐々に向上することがわかった。
本稿では,下流タスクの解法において,リッチなタスクジェネリック表現を保存できる新しい微調整方式GLobal Attention Discretization(GLAD)を提案する。
論文 参考訳(メタデータ) (2023-06-21T05:26:28Z) - Retrieval-Enhanced Contrastive Vision-Text Models [61.783728119255365]
そこで本研究では,メモリから取得したクロスモーダルな情報を推論時に表現することで,その埋め込みを洗練できる視覚テキストモデルを提案する。
注目すべきことに、これは凍ったCLIPの上に軽量の単層核融合トランスを用いて行うことができる。
検索強化コントラスト訓練(RECO)がCLIPの性能を大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-06-12T15:52:02Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - Do Pre-trained Models Benefit Equally in Continual Learning? [22.457562524649934]
既存の継続学習(CL)の研究は主に、ゼロから訓練されたモデルのアルゴリズムの開発に費やされている。
コントリビュートベンチマークのパフォーマンスは高いが、これらのアルゴリズムは現実のシナリオで劇的なパフォーマンス低下を示す。
本稿では,CLに対する事前学習の体系的導入を提唱する。
論文 参考訳(メタデータ) (2022-10-27T18:03:37Z) - Evaluating CLIP: Towards Characterization of Broader Capabilities and
Downstream Implications [8.15254368157658]
私たちはCLIPを分析し、そのようなモデルがもたらす課題をいくつか強調します。
CLIPは、従来のコンピュータビジョンシステムに見られるバイアスを継承できる。
これらの結果は、成長する仕事の体に「ベター」モデルの概念を変えることを要求する証拠となる。
論文 参考訳(メタデータ) (2021-08-05T19:05:57Z) - Ask-n-Learn: Active Learning via Reliable Gradient Representations for
Image Classification [29.43017692274488]
深い予測モデルは、ラベル付きトレーニングデータという形で人間の監督に依存する。
Ask-n-Learnは,各アルゴリズムで推定されたペスドラベルを用いて得られる勾配埋め込みに基づく能動的学習手法である。
論文 参考訳(メタデータ) (2020-09-30T05:19:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。