論文の概要: Online Zero-Shot Classification with CLIP
- arxiv url: http://arxiv.org/abs/2408.13320v1
- Date: Fri, 23 Aug 2024 18:12:12 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 20:08:51.085286
- Title: Online Zero-Shot Classification with CLIP
- Title(参考訳): CLIPによるオンラインゼロショット分類
- Authors: Qi Qian, Juhua Hu,
- Abstract要約: オンラインゼロショット転送のシナリオについて検討し、各画像がランダムな順序で分類され、1回だけ訪れて予測を得る。
バニラゼロショットの分類と比較すると、提案フレームワークはオンラインサービスに対する柔軟性を保っている。
オンラインゼロショット転送方式(OnZeta)は,データセット全体にアクセスすることなく,ImageNet上で78.94%の精度を実現する。
- 参考スコア(独自算出の注目度): 9.099027915077698
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language pre-training such as CLIP enables zero-shot transfer that can classify images according to the candidate class names. While CLIP demonstrates an impressive zero-shot performance on diverse downstream tasks, the distribution from the target data has not been leveraged sufficiently. In this work, we study a novel online zero-shot transfer scenario, where each image arrives in a random order for classification and is visited only once to obtain prediction immediately without storing its representation. Compared with the vanilla zero-shot classification, the proposed framework preserves its flexibility for online service while considering the statistics of the arrived images as the side information to capture the distribution of target data, which can help improve the performance of real-world applications. To tackle the challenge of effective online optimization, we first develop online label learning to model the target data distribution. Then, the proxy of each class in the vision space is further optimized with the proposed online proxy learning method to mitigate the modality gap between images and text. The convergence of both online strategies can be theoretically guaranteed. By combining the predicted label from the online label learning and proxy learning, our online zero-shot transfer method (OnZeta) achieves $78.94\%$ accuracy on ImageNet without accessing the entire data set. Moreover, extensive experiments on other 13 downstream tasks with different vision encoders show a more than $3\%$ improvement on average, which demonstrates the effectiveness of our proposal. Code is available at \url{https://github.com/idstcv/OnZeta}.
- Abstract(参考訳): CLIPのようなビジョン言語による事前トレーニングでは、ゼロショット転送が可能で、候補クラス名に従ってイメージを分類することができる。
CLIPは、さまざまな下流タスクにおいて印象的なゼロショットのパフォーマンスを示すが、ターゲットデータからの分散は十分に活用されていない。
そこで本研究では,各画像がランダムな順序で分類され,一度だけ訪れて,その表現を記憶せずに即座に予測を行う,新しいゼロショット転送シナリオについて検討する。
バニラゼロショット分類と比較して、提案フレームワークは、到着した画像の統計情報を側情報として考慮しつつ、オンラインサービスに対する柔軟性を保ち、実際のアプリケーションの性能向上に寄与する。
効果的なオンライン最適化の課題に対処するために、まずターゲットデータ分布をモデル化するオンラインラベル学習を開発する。
そして、視覚空間における各クラスのプロキシをさらに最適化し、画像とテキスト間のモダリティギャップを軽減するオンラインプロキシ学習手法を提案する。
両オンライン戦略の収束は理論的に保証される。
オンラインラベル学習とプロキシ学習から予測されたラベルを組み合わせることで、オンラインゼロショット転送法(OnZeta)はデータセット全体にアクセスすることなく、ImageNet上で78.94\%の精度を実現する。
さらに、視覚エンコーダが異なる他の13の下流タスクに対する広範な実験では、平均で3.5%以上の改善がなされており、提案手法の有効性が示されている。
コードは \url{https://github.com/idstcv/OnZeta} で入手できる。
関連論文リスト
- Enhancing Zero-Shot Vision Models by Label-Free Prompt Distribution Learning and Bias Correcting [55.361337202198925]
CLIPのようなヴィジュアル言語モデルは、適切なテキスト記述を使用する際に、顕著な一般化能力を示している。
本稿では,ラベル付きデータを必要としないゼロショット性能を向上する,**Frolic**と呼ばれるラベルフリーな分布学習とバイアス補正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-25T04:00:45Z) - Leveraging Cross-Modal Neighbor Representation for Improved CLIP Classification [54.96876797812238]
画像と隣接するテキスト間の距離構造に基づく新しいCrOss-moDal nEighbor表現(CODER)を提案する。
高品質のCODERを構築する鍵は、画像にマッチする大量の高品質で多様なテキストを作成する方法にある。
さまざまなデータセットやモデルに対する実験結果から、CODERの有効性が確認されている。
論文 参考訳(メタデータ) (2024-04-27T02:04:36Z) - Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。
推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。
提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文 参考訳(メタデータ) (2024-04-08T12:44:31Z) - Meta-Adapter: An Online Few-shot Learner for Vision-Language Model [64.21017759533474]
CLIPとして知られる対照的な視覚言語事前学習は、オープンワールドの視覚概念を知覚する大きな可能性を実証している。
CLIPに基づくほとんどショットの学習方法は、通常、少数のサンプルでパラメータをオフラインで微調整する必要がある。
少数のサンプルから導かれるCLIP機能をオンライン的に洗練するための,軽量な残差型アダプタであるMeta-Adapterを提案する。
論文 参考訳(メタデータ) (2023-11-07T07:27:16Z) - Intra-Modal Proxy Learning for Zero-Shot Visual Categorization with CLIP [15.48717971754816]
InMaPは、1つのGPUで1分以内にビジョンプロキシを取得でき、CLIPが事前トレーニングしたViT-L/14@336でImageNet上でのゼロショット精度を7.02%から80.21%に改善できる。
論文 参考訳(メタデータ) (2023-10-30T17:22:02Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。
CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。
提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文 参考訳(メタデータ) (2023-05-15T14:42:02Z) - CALIP: Zero-Shot Enhancement of CLIP with Parameter-free Attention [31.84299688413136]
コントラスト言語-画像事前学習は、大きな伝達性を持つ視覚表現を学習することが示されている。
既存の作業では、CLIPに新たな学習可能なモジュールを提案し、数ショットのトレーニングセットでそれらを微調整する。
本稿では,パラメータフリーアテンションモジュールを通じてCLIPのゼロショット性能を向上させるために,フリーランチ拡張手法であるCALIPを導入する。
論文 参考訳(メタデータ) (2022-09-28T15:22:11Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。