論文の概要: Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation
- arxiv url: http://arxiv.org/abs/2410.08895v1
- Date: Fri, 11 Oct 2024 15:12:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-30 21:16:19.418878
- Title: Calibrated Cache Model for Few-Shot Vision-Language Model Adaptation
- Title(参考訳): Few-Shot Vision-Language Model Adaptationのためのキャリブレーションキャッシュモデル
- Authors: Kun Ding, Qiang Yu, Haojian Zhang, Gaofeng Meng, Shiming Xiang,
- Abstract要約: 類似性は、ラベルのない画像を使用することで画像と画像の類似性を洗練する。
重みは、トレーニングサンプル間の関係を適切にモデル化するために、精度行列を重み関数に導入する。
GPの複雑さを低減するため,グループベースの学習戦略を提案する。
- 参考スコア(独自算出の注目度): 36.45488536471859
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Cache-based approaches stand out as both effective and efficient for adapting vision-language models (VLMs). Nonetheless, the existing cache model overlooks three crucial aspects. 1) Pre-trained VLMs are mainly optimized for image-text similarity, neglecting the importance of image-image similarity, leading to a gap between pre-training and adaptation. 2) The current cache model is based on the Nadaraya-Watson (N-W) estimator, which disregards the intricate relationships among training samples while constructing weight function. 3) Under the condition of limited samples, the logits generated by cache model are of high uncertainty, directly using these logits without accounting for the confidence could be problematic. This work presents three calibration modules aimed at addressing the above challenges. Similarity Calibration refines the image-image similarity by using unlabeled images. We add a learnable projection layer with residual connection on top of the pre-trained image encoder of CLIP and optimize the parameters by minimizing self-supervised contrastive loss. Weight Calibration introduces a precision matrix into the weight function to adequately model the relation between training samples, transforming the existing cache model to a Gaussian Process (GP) regressor, which could be more accurate than N-W estimator. Confidence Calibration leverages the predictive variances computed by GP Regression to dynamically re-scale the logits of cache model, ensuring that the cache model's outputs are appropriately adjusted based on their confidence levels. Besides, to reduce the high complexity of GPs, we further propose a group-based learning strategy. Integrating the above designs, we propose both training-free and training-required variants. Extensive experiments on 11 few-shot classification datasets validate that the proposed methods can achieve state-of-the-art performance.
- Abstract(参考訳): キャッシュベースのアプローチは、視覚言語モデル(VLM)の適応には効率的かつ効率的である。
それでも、既存のキャッシュモデルは、3つの重要な側面を見落としている。
1) 事前学習VLMは画像-テキスト類似性に最適化されており, 画像-画像類似性の重要性を無視し, 事前学習と適応のギャップを生じさせる。
2) 現在のキャッシュモデルは, 重量関数を構築しながら, トレーニングサンプル間の複雑な関係を無視するNadaraya-Watson (N-W) 推定器に基づいている。
3) 限られたサンプルの条件下では, キャッシュモデルにより生成されたロジットは不確実性が高く, 信頼性を考慮せずに直接これらのロジットを使用することは問題となる可能性がある。
本研究は上記の課題に対処するための3つのキャリブレーションモジュールを提案する。
類似度キャリブレーションは、ラベルなし画像を用いて画像と画像の類似性を洗練する。
学習可能なプロジェクション層をCLIPのトレーニング済みイメージエンコーダ上に残差接続し,自己監督型コントラスト損失を最小化してパラメータを最適化する。
重み行列を重み関数に導入し、トレーニングサンプル間の関係を適切にモデル化し、既存のキャッシュモデルをN-W推定器よりも精度の高いガウス過程(GP)回帰器に変換する。
信頼性校正は、GP回帰によって計算される予測分散を利用して、キャッシュモデルのロジットを動的に再スケールし、キャッシュモデルの出力がその信頼性レベルに基づいて適切に調整されることを保証する。
さらに,GPの複雑さを低減するため,グループベースの学習戦略を提案する。
上記の設計を統合することで、トレーニング不要とトレーニング不要の両方の亜種を提案する。
11個のショット分類データセットに対する大規模な実験により、提案手法が最先端の性能を達成できることが検証された。
関連論文リスト
- Fast constrained sampling in pre-trained diffusion models [77.21486516041391]
拡散モデルは、大規模な生成画像モデルの分野を支配してきた。
本研究では,大規模な事前学習拡散モデルにおける高速拘束サンプリングのアルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-10-24T14:52:38Z) - MetaAug: Meta-Data Augmentation for Post-Training Quantization [32.02377559968568]
トレーニング後の量子化(PTQ)は、完全な精度モデルを定量化するために、小さなキャリブレーションデータのみを必要とするため、大きな注目を集めている。
本稿では,ポストトレーニング量子化の性能向上のためのメタラーニングに基づく新しい手法を提案する。
論文 参考訳(メタデータ) (2024-07-20T02:18:51Z) - Forgery-aware Adaptive Transformer for Generalizable Synthetic Image
Detection [106.39544368711427]
本研究では,様々な生成手法から偽画像を検出することを目的とした,一般化可能な合成画像検出の課題について検討する。
本稿では,FatFormerという新しいフォージェリー適応トランスフォーマー手法を提案する。
提案手法は, 平均98%の精度でGANを観測し, 95%の精度で拡散モデルを解析した。
論文 参考訳(メタデータ) (2023-12-27T17:36:32Z) - Uncertainty Guided Adaptive Warping for Robust and Efficient Stereo
Matching [77.133400999703]
相関に基づくステレオマッチングは優れた性能を達成した。
固定モデルによる現在のメソッドは、さまざまなデータセットで均一に動作しない。
本稿では,ロバストなステレオマッチングのための相関を動的に計算する新しい視点を提案する。
論文 参考訳(メタデータ) (2023-07-26T09:47:37Z) - Distribution-Aware Single-Stage Models for Multi-Person 3D Pose
Estimation [29.430404703883084]
本稿では,多人数の3Dポーズ推定問題に対処する新しいDASモデルを提案する。
提案するDASモデルでは,3次元カメラ空間における人物位置と人体関節をワンパスで同時に位置決めする。
CMU Panoptic と MuPoTS-3D のベンチマークに関する総合的な実験は、提案したDASモデルの優れた効率を実証している。
論文 参考訳(メタデータ) (2022-03-15T07:30:27Z) - Model soups: averaging weights of multiple fine-tuned models improves
accuracy without increasing inference time [69.7693300927423]
複数モデルの重み付けを異なるパラメータ構成で微調整することにより,精度とロバスト性が向上することを示す。
モデルスープ手法は,複数の画像分類や自然言語処理タスクにまで拡張されている。
論文 参考訳(メタデータ) (2022-03-10T17:03:49Z) - A Model for Multi-View Residual Covariances based on Perspective
Deformation [88.21738020902411]
マルチビューSfM, オードメトリ, SLAMセットアップにおける視覚的残差の共分散モデルの導出を行う。
我々は、合成データと実データを用いてモデルを検証し、それを光度および特徴量に基づくバンドル調整に統合する。
論文 参考訳(メタデータ) (2022-02-01T21:21:56Z) - PDC-Net+: Enhanced Probabilistic Dense Correspondence Network [161.76275845530964]
高度確率密度対応ネットワーク(PDC-Net+)は、精度の高い高密度対応を推定できる。
我々は、堅牢で一般化可能な不確実性予測に適したアーキテクチャと強化されたトレーニング戦略を開発する。
提案手法は,複数の挑戦的幾何マッチングと光学的フローデータセットに対して,最先端の結果を得る。
論文 参考訳(メタデータ) (2021-09-28T17:56:41Z) - Deep Learning for Regularization Prediction in Diffeomorphic Image
Registration [8.781861951759948]
微分同相変換の滑らかさを制御するパラメータを自動的に決定する新しいフレームワークを導入する。
画像登録の正規化パラメータとペア画像間のマッピングを学習する深層畳み込みニューラルネットワーク(CNN)に基づく予測モデルを開発した。
実験結果から,本モデルは画像登録のための適切な正規化パラメータを予測できるだけでなく,時間とメモリ効率の面でネットワークトレーニングを改善することが示唆された。
論文 参考訳(メタデータ) (2020-11-28T22:56:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。