論文の概要: Noise-Tolerant Unsupervised Adapter for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2309.14928v1
- Date: Tue, 26 Sep 2023 13:35:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-27 13:32:25.307359
- Title: Noise-Tolerant Unsupervised Adapter for Vision-Language Models
- Title(参考訳): 視覚言語モデルのためのノイズ耐性非教師なしアダプタ
- Authors: Eman Ali, Dayan Guan, Shijian Lu, Abdulmotaleb Elsaddik
- Abstract要約: NtUAは耐雑音性のない教師なし適応器で、数発の未ラベルのターゲットサンプルで優れたターゲットモデルを学習することができる。
NtUAは、広く採用されている複数のベンチマークにおいて、一貫して優れたパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 67.72101536572232
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in large-scale vision-language models have achieved very
impressive performance in various zero-shot image classification tasks. While
prior studies have demonstrated significant improvements by introducing
few-shot labelled target samples, they still require labelling of target
samples, which greatly degrades their scalability while handling various visual
recognition tasks. We design NtUA, a Noise-tolerant Unsupervised Adapter that
allows learning superior target models with few-shot unlabelled target samples.
NtUA works as a key-value cache that formulates visual features and predicted
pseudo-labels of the few-shot unlabelled target samples as key-value pairs. It
consists of two complementary designs. The first is adaptive cache formation
that combats pseudo-label noises by weighting the key-value pairs according to
their prediction confidence. The second is pseudo-label rectification, which
corrects both pair values (i.e., pseudo-labels) and cache weights by leveraging
knowledge distillation from large-scale vision language models. Extensive
experiments show that NtUA achieves superior performance consistently across
multiple widely adopted benchmarks.
- Abstract(参考訳): 大規模視覚言語モデルの最近の進歩は、様々なゼロショット画像分類タスクにおいて非常に印象的な性能を達成している。
以前の研究では、少数のラベル付きターゲットサンプルの導入による大幅な改善が示されているが、ターゲットサンプルのラベル付けが必要であり、様々な視覚認識タスクを処理しながらスケーラビリティを大幅に低下させる。
ntuaはノイズに耐性のある非教師なしアダプターで、数発の未ラベルのターゲットサンプルで優れたターゲットモデルを学習できる。
NtUAは、視覚的特徴を定式化したキー値キャッシュとして機能し、数発の未ラベルのターゲットサンプルの擬似ラベルをキー値ペアとして予測する。
相補的なデザインが2つある。
1つ目は、擬似ラベルノイズに対処する適応キャッシュ形成であり、予測信頼度に応じてキー値対を重み付けする。
2つ目は擬似ラベル補正であり、大規模な視覚言語モデルからの知識蒸留を利用してペア値(擬似ラベル)とキャッシュ重みを補正する。
大規模な実験により、NtUAは複数の広く採用されているベンチマークにおいて、一貫して優れた性能を発揮することが示された。
関連論文リスト
- Forging Tokens for Improved Storage-efficient Training [39.64859737970321]
SeiTは、Vector-Quantized (VQ)特徴ベクトル(トークン)を視覚分類のためのネットワーク入力として使用することを提案している。
TokenAdaptとColorAdaptを紹介します。
我々は,ストレージ効率の高いImageNet-1k分類,きめ細かい分類,ロバストネスベンチマーク,ADE-20kセマンティックセマンティックセグメンテーションなど,さまざまなシナリオにおけるアプローチを評価した。
論文 参考訳(メタデータ) (2023-12-15T04:11:34Z) - With a Little Help from your own Past: Prototypical Memory Networks for
Image Captioning [47.96387857237473]
我々は、他のトレーニングサンプルを処理しながら得られたアクティベーションに注意を向けるネットワークを考案した。
私たちのメモリは、プロトタイプベクトルの定義を通じて過去のキーと値の分布をモデル化します。
本研究では,エンコーダ・デコーダ変換器の性能を3.7 CIDErポイント向上できることを示す。
論文 参考訳(メタデータ) (2023-08-23T18:53:00Z) - Unsupervised Prototype Adapter for Vision-Language Models [29.516767588241724]
我々はUnsupervised Prototype Adapter (UP-Adapter)と呼ばれる視覚言語モデルのための教師なし微調整アプローチを設計する。
具体的には、アノテーションのないターゲットデータセットに対して、CLIPのテキストイメージ整合機能を活用して、各クラスに対して最も確実なサンプルを自動的に選択する。
微調整後、プロトタイプモデル予測と元のCLIPの予測を残りの接続で組み合わせて下流認識タスクを実行する。
論文 参考訳(メタデータ) (2023-08-22T15:28:49Z) - Augment and Criticize: Exploring Informative Samples for Semi-Supervised
Monocular 3D Object Detection [64.65563422852568]
我々は、一般的な半教師付きフレームワークを用いて、難解な単分子3次元物体検出問題を改善する。
我々は、ラベルのないデータから豊富な情報的サンプルを探索する、新しい、シンプルで効果的なAugment and Criticize'フレームワークを紹介します。
3DSeMo_DLEと3DSeMo_FLEXと呼ばれる2つの新しい検出器は、KITTIのAP_3D/BEV(Easy)を3.5%以上改善した。
論文 参考訳(メタデータ) (2023-03-20T16:28:15Z) - Unified Visual Relationship Detection with Vision and Language Models [89.77838890788638]
この研究は、複数のデータセットからラベル空間の結合を予測する単一の視覚的関係検出器のトレーニングに焦点を当てている。
視覚と言語モデルを活用した統合視覚関係検出のための新しいボトムアップ手法UniVRDを提案する。
人物体間相互作用検出とシーングラフ生成の双方による実験結果から,本モデルの競合性能が示された。
論文 参考訳(メタデータ) (2023-03-16T00:06:28Z) - Learning Transferable Adversarial Robust Representations via Multi-view
Consistency [57.73073964318167]
デュアルエンコーダを用いたメタ逆多視点表現学習フレームワークを提案する。
未確認領域からの少数ショット学習タスクにおけるフレームワークの有効性を実証する。
論文 参考訳(メタデータ) (2022-10-19T11:48:01Z) - Dynamic Label Assignment for Object Detection by Combining Predicted and
Anchor IoUs [20.41563386339572]
本稿では,予測付きトレーニング状況に基づいてラベル割り当てを動的に行うための,シンプルで効果的な手法を提案する。
本手法は,適応ラベル代入アルゴリズムによる検出モデルの性能改善を示す。
論文 参考訳(メタデータ) (2022-01-23T23:14:07Z) - Explicitly Modeling the Discriminability for Instance-Aware Visual
Object Tracking [13.311777431243296]
特徴表現の識別性を明らかにするための新しいインスタンス・アウェア・トラッカー (IAT) を提案する。
提案するIATには,ビデオレベルとオブジェクトレベルを含む2つのバリエーションを実装している。
どちらのバージョンも30FPSで動作しながら最先端のメソッドに対して主要な結果を得る。
論文 参考訳(メタデータ) (2021-10-28T11:24:01Z) - Instance-Level Relative Saliency Ranking with Graph Reasoning [126.09138829920627]
そこで本研究では,有意な事例を分割し,相対的有意な有意なランク順序を推定するための統一モデルを提案する。
また、サラレンシーランキングブランチを効果的にトレーニングするために、新しい損失関数も提案されている。
実験の結果,提案手法は従来の手法よりも有効であることがわかった。
論文 参考訳(メタデータ) (2021-07-08T13:10:42Z) - One-Shot Object Detection without Fine-Tuning [62.39210447209698]
本稿では,第1ステージのMatching-FCOSネットワークと第2ステージのStructure-Aware Relation Moduleからなる2段階モデルを提案する。
また,検出性能を効果的に向上する新たなトレーニング戦略を提案する。
提案手法は,複数のデータセット上で一貫した最先端のワンショット性能を上回る。
論文 参考訳(メタデータ) (2020-05-08T01:59:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。