Fugu-MT 論文翻訳(概要): CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification

論文の概要: CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification

arxiv url: http://arxiv.org/abs/2405.16591v2
Date: Thu, 07 Nov 2024 09:33:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:32.824874
Title: CapS-Adapter: Caption-based MultiModal Adapter in Zero-Shot Classification
Title（参考訳）: CapSアダプタ:ゼロショット分類におけるキャプションベースのマルチモーダルアダプタ
Authors: Qijie Wang, Guandu Liu, Bin Wang,
Abstract要約: CapS-Adapterは、イメージとキャプションの両方の機能を活用して、トレーニング不要シナリオにおける既存の最先端技術を超える革新的な方法である。提案手法は,19個のベンチマークデータセットのゼロショット分類結果に優れており,従来の先行手法よりも2.19%精度が向上している。
参考スコア（独自算出の注目度）: 3.594351309950969
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent advances in vision-language foundational models, such as CLIP, have demonstrated significant strides in zero-shot classification. However, the extensive parameterization of models like CLIP necessitates a resource-intensive fine-tuning process. In response, TIP-Adapter and SuS-X have introduced training-free methods aimed at bolstering the efficacy of downstream tasks. While these approaches incorporate support sets to maintain data distribution consistency between knowledge cache and test sets, they often fall short in terms of generalization on the test set, particularly when faced with test data exhibiting substantial distributional variations. In this work, we present CapS-Adapter, an innovative method that employs a caption-based support set, effectively harnessing both image and caption features to exceed existing state-of-the-art techniques in training-free scenarios. CapS-Adapter adeptly constructs support sets that closely mirror target distributions, utilizing instance-level distribution features extracted from multimodal large models. By leveraging CLIP's single and cross-modal strengths, CapS-Adapter enhances predictive accuracy through the use of multimodal support sets. Our method achieves outstanding zero-shot classification results across 19 benchmark datasets, improving accuracy by 2.19\% over the previous leading method. Our contributions are substantiated through extensive validation on multiple benchmark datasets, demonstrating superior performance and robust generalization capabilities. Our code is made publicly available at https://github.com/WLuLi/CapS-Adapter.
Abstract（参考訳）: CLIPのような視覚言語基盤モデルの最近の進歩は、ゼロショット分類において大きな進歩を見せている。しかし、CLIPのようなモデルの広範なパラメータ化は、リソース集約的な微調整プロセスを必要とする。これに対し、TIP-AdapterとSuS-Xは、下流タスクの有効性を高めるためのトレーニング不要な手法を導入した。これらの手法には、知識キャッシュとテストセット間のデータの分散一貫性を維持するためのサポートセットが組み込まれているが、テストセットの一般化の観点からは、特にかなりの分散変化を示すテストデータに直面している場合、しばしば不足する。本研究では,キャプションベースのサポートセットを用いた新しい手法であるCapS-Adapterを提案する。 CapS-Adapterは、マルチモーダルな大規模モデルから抽出したインスタンスレベルの分散特性を利用して、ターゲット分布を密接にミラーするサポートセットを構築する。 CLIPのシングルとクロスモーダルの強度を活用することで、CapS-Adapterはマルチモーダルサポートセットを使用して予測精度を向上させる。提案手法は,19個のベンチマークデータセットのゼロショット分類結果に優れ,従来の先行手法よりも精度が2.19倍向上した。当社のコントリビューションは、複数のベンチマークデータセットに対する広範な検証を通じて、優れたパフォーマンスと堅牢な一般化能力を示す形で実証されています。私たちのコードはhttps://github.com/WLuLi/CapS-Adapter.comで公開されています。

関連論文リスト

COSMIC: Clique-Oriented Semantic Multi-space Integration for Robust CLIP Test-Time Adaptation [3.8212877227467548]
近年の視覚言語モデル(VLM)は、新しい領域へのテスト時間適応において大きな課題に直面している。マルチグラニュラー・クロスモーダルなセマンティックキャッシングによる適応性を向上させる,堅牢なテスト時間適応フレームワークであるCOSMICを提案する。我々のフレームワークは、Dual Semantics Graph(DSG)とClique Guided Hyper-class(CGH)の2つの重要なイノベーションを導入している。
論文参考訳（メタデータ） (2025-03-30T10:34:45Z)
FLEX-CLIP: Feature-Level GEneration Network Enhanced CLIP for X-shot Cross-modal Retrieval [10.26297663751352]
CMR (Few-shot Cross-Modal Search) は、ターゲットドメインと別のモダリティで意味的に類似したインスタンスを検索する。 CLIPのような視覚言語による事前学習手法は、非常に少ないショットまたはゼロショットの学習性能を示している。これらの課題に対処するために,新しい特徴レベル生成ネットワーク強化CLIPであるFLEX-CLIPを提案する。
論文参考訳（メタデータ） (2024-11-26T14:12:14Z)
CLIP Adaptation by Intra-modal Overlap Reduction [1.2277343096128712]
画像空間におけるモーダル内重なりを埋め込み表現の観点から解析する。 Google Open Imagesデータセットからサンプルのジェネリックセットに軽量アダプタをトレーニングします。
論文参考訳（メタデータ） (2024-09-17T16:40:58Z)
A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文参考訳（メタデータ） (2024-02-06T15:45:27Z)
Boosting Few-Shot Segmentation via Instance-Aware Data Augmentation and Local Consensus Guided Cross Attention [7.939095881813804]
少ないショットセグメンテーションは、注釈付き画像のみを提供する新しいタスクに迅速に適応できるセグメンテーションモデルをトレーニングすることを目的としている。本稿では,対象オブジェクトの相対的サイズに基づいて,サポートイメージを拡大するIDA戦略を提案する。提案したIDAは,サポートセットの多様性を効果的に向上し,サポートイメージとクエリイメージ間の分散一貫性を促進する。
論文参考訳（メタデータ） (2024-01-18T10:29:10Z)
Consistency Regularization for Generalizable Source-free Domain Adaptation [62.654883736925456]
ソースフリードメイン適応(source-free domain adapt, SFDA)は、ソースデータセットにアクセスすることなく、十分にトレーニングされたソースモデルを未学習のターゲットドメインに適応することを目的としている。既存のSFDAメソッドは、ターゲットのトレーニングセット上で適用されたモデルを評価し、目に見えないが同一の分散テストセットからデータを無視する。より一般化可能なSFDA法を開発するための整合正則化フレームワークを提案する。
論文参考訳（メタデータ） (2023-08-03T07:45:53Z)
CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文参考訳（メタデータ） (2023-02-02T04:27:54Z)
SVL-Adapter: Self-Supervised Adapter for Vision-Language Pretrained Models [9.017387427570538]
CLIPのような視覚言語モデルは、大量のインターネットソースイメージとテキストペアで事前訓練されている。そのサイズのため、これらのモデルを新しいデータセットに微調整することは、監督と計算の両方の点で違法にコストがかかる可能性がある。本稿では,視覚言語事前学習と自己指導型表現学習の相補的長所を組み合わせたSVL-Adapterという新しい手法を提案する。
論文参考訳（メタデータ） (2022-10-07T19:35:08Z)
Tip-Adapter: Training-free Adaption of CLIP for Few-shot Classification [58.06983806317233]
対照的に、CLIPとして知られる事前学習は、大規模な画像テキストペアを使用して視覚表現を学ぶための新しいパラダイムを提供する。 CLIPの適応性を高めるため、既存のメソッドは学習可能なモジュールを微調整する。そこで本研究では,Tip-Adapterと呼ばれる少数ショット分類を行うためのCLIPのトレーニングフリー適応手法を提案する。
論文参考訳（メタデータ） (2022-07-19T19:12:11Z)
CAD: Co-Adapting Discriminative Features for Improved Few-Shot Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文参考訳（メタデータ） (2022-03-25T06:14:51Z)
Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文参考訳（メタデータ） (2021-08-29T05:45:03Z)
Contrastive Prototype Learning with Augmented Embeddings for Few-Shot Learning [58.2091760793799]
拡張埋め込み(CPLAE)モデルを用いた新しいコントラスト型プロトタイプ学習を提案する。クラスプロトタイプをアンカーとして、CPLは、同じクラスのクエリサンプルを、異なるクラスのサンプルを、さらに遠くに引き出すことを目的としている。いくつかのベンチマークによる大規模な実験により,提案したCPLAEが新たな最先端を実現することが示された。
論文参考訳（メタデータ） (2021-01-23T13:22:44Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。