Fugu-MT 論文翻訳(概要): The Devil is in the Few Shots: Iterative Visual Knowledge Completion for Few-shot Learning

論文の概要: The Devil is in the Few Shots: Iterative Visual Knowledge Completion for Few-shot Learning

arxiv url: http://arxiv.org/abs/2404.09778v2
Date: Fri, 19 Apr 2024 02:19:19 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-22 17:13:50.866887
Title: The Devil is in the Few Shots: Iterative Visual Knowledge Completion for Few-shot Learning
Title（参考訳）: 悪魔は数ショットにある: 数ショット学習のための反復的な視覚的知識補完
Authors: Yaohui Li, Qifeng Zhou, Haoxing Chen, Jianbing Zhang, Xinyu Dai, Hao Zhou,
Abstract要約: 対照的に、CLIP(Contrastive Language-Image Pre-Training)は、ゼロショット学習の強力なパフォーマンスを示している。フルショット学習は、各クラスに少数の画像を与えることで、CLIPの転送能力をさらに向上することを目的としている。
参考スコア（独自算出の注目度）: 29.87420015681205
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Contrastive Language-Image Pre-training (CLIP) has shown powerful zero-shot learning performance. Few-shot learning aims to further enhance the transfer capability of CLIP by giving few images in each class, aka 'few shots'. Most existing methods either implicitly learn from the few shots by incorporating learnable prompts or adapters, or explicitly embed them in a cache model for inference. However, the narrow distribution of few shots often contains incomplete class information, leading to biased visual knowledge with high risk of misclassification. To tackle this problem, recent methods propose to supplement visual knowledge by generative models or extra databases, which can be costly and time-consuming. In this paper, we propose an Iterative Visual Knowledge CompLetion (KCL) method to complement visual knowledge by properly taking advantages of unlabeled samples without access to any auxiliary or synthetic data. Specifically, KCL first measures the similarities between unlabeled samples and each category. Then, the samples with top confidence to each category is selected and collected by a designed confidence criterion. Finally, the collected samples are treated as labeled ones and added to few shots to jointly re-estimate the remaining unlabeled ones. The above procedures will be repeated for a certain number of iterations with more and more samples being collected until convergence, ensuring a progressive and robust knowledge completion process. Extensive experiments on 11 benchmark datasets demonstrate the effectiveness and efficiency of KCL as a plug-and-play module under both few-shot and zero-shot learning settings. Code is available at https://github.com/Mark-Sky/KCL.
Abstract（参考訳）: 対照的に、CLIP(Contrastive Language-Image Pre-Training)は、ゼロショット学習の強力なパフォーマンスを示している。 CLIPの転送機能をさらに強化するために、クラス毎にイメージを少数与えることが目的だ。既存のほとんどのメソッドは、学習可能なプロンプトやアダプタを組み込むことで、いくつかのショットから暗黙的に学習するか、推論のためにキャッシュモデルにそれらを明示的に埋め込みます。しかし、少ないショットの狭い分布には、しばしば不完全なクラス情報が含まれており、誤分類のリスクの高い視覚的知識に偏りが生じる。この問題に対処するため、近年の手法では、生成モデルや余分なデータベースによる視覚的知識の補足が提案されている。本稿では, 補助データや合成データにアクセスせずに, ラベルのないサンプルを適切に活用することにより, 視覚知識を補完する反復的視覚知識比較法を提案する。具体的には、KCLはまず、ラベルなしサンプルと各カテゴリの類似度を測定する。そして、各カテゴリに最も信頼度の高いサンプルを選択し、設計された信頼基準によって収集する。最後に、収集したサンプルをラベル付きとして扱い、残りのラベルなしのサンプルを共同で再推定するために、いくつかのショットに追加する。上記の手順は、一定回数の反復に対して反復され、収束するまでさらに多くのサンプルが収集され、進歩的で堅牢な知識完成プロセスが保証される。 11のベンチマークデータセットに対する大規模な実験は、数ショットとゼロショットの学習設定の両方で、プラグイン・アンド・プレイモジュールとしてのKCLの有効性と効率を実証している。コードはhttps://github.com/Mark-Sky/KCLで入手できる。

関連論文リスト

Class Balance Matters to Active Class-Incremental Learning [61.11786214164405]
まず、大規模な未ラベルデータのプールから始めて、インクリメンタルな学習のための最も情報に富んだサンプルを注釈付けします。そこで我々は,クラスバランスと情報提供性を両立させるため,クラスバランス選択(CBS)戦略を提案する。我々のCBSは、プリトレーニング済みモデルとプロンプトチューニング技術に基づいて、これらのCILメソッドに接続し、再生することができる。
論文参考訳（メタデータ） (2024-12-09T16:37:27Z)
CLIP-FSAC++: Few-Shot Anomaly Classification with Anomaly Descriptor Based on CLIP [22.850815902535988]
筆者らは,CLIP-FSAC++と呼ばれる一段階の訓練を施した効果的な数ショット異常分類フレームワークを提案する。異常記述子では、画像からテキストへのクロスアテンションモジュールを使用して、画像固有のテキスト埋め込みを得る。その結果,VisAおよびMVTEC-ADを1, 2, 4, 8ショット設定で非正規ショット異常分類し,本手法の総合的な評価実験を行った。
論文参考訳（メタデータ） (2024-12-05T02:44:45Z)
Transductive Zero-Shot and Few-Shot CLIP [24.592841797020203]
本稿では,トランスダクティブなゼロショットと少数ショットのCLIP分類問題に対処する。推論は、各インスタンスを独立して扱うのではなく、ラベルのないクエリサンプルのミニバッチで共同で実行される。提案手法は,CLIPのゼロショット性能に対して,画像ネットの精度を約20%向上させる。
論文参考訳（メタデータ） (2024-04-08T12:44:31Z)
Enhancing Visual Continual Learning with Language-Guided Supervision [76.38481740848434]
継続的な学習は、モデルが以前獲得した知識を忘れずに新しいタスクを学習できるようにすることを目的としている。ワンホットラベルが伝達する少ない意味情報は,タスク間の効果的な知識伝達を妨げている,と我々は主張する。具体的には, PLM を用いて各クラスのセマンティックターゲットを生成し, 凍結し, 監視信号として機能する。
論文参考訳（メタデータ） (2024-03-24T12:41:58Z)
Decoupled Contrastive Learning for Long-Tailed Recognition [58.255966442426484]
Supervised Contrastive Loss (SCL) は視覚表現学習で人気がある。ロングテール認識のシナリオでは、各クラスのサンプル数が不均衡である場合、2種類の正のサンプルを同じように扱うと、カテゴリー内距離に対するバイアス最適化が導かれる。そこで我々は,尾級の低表現を緩和するために,頭級から尾級へ知識を伝達するためのパッチベースの自己蒸留法を提案する。
論文参考訳（メタデータ） (2024-03-10T09:46:28Z)
Learning Prompt with Distribution-Based Feature Replay for Few-Shot Class-Incremental Learning [56.29097276129473]
分散型特徴再現(LP-DiF)を用いた学習プロンプト(Learning Prompt)という,シンプルで効果的なフレームワークを提案する。新しいセッションでは,学習可能なプロンプトが古い知識を忘れないようにするため,擬似機能的リプレイ手法を提案する。新しいセッションに進むと、古いクラスのディストリビューションと現在のセッションのトレーニングイメージを組み合わせて擬似フィーチャーをサンプリングして、プロンプトを最適化する。
論文参考訳（メタデータ） (2024-01-03T07:59:17Z)
Virtual Category Learning: A Semi-Supervised Learning Method for Dense Prediction with Extremely Limited Labels [63.16824565919966]
本稿では,ラベルの修正を伴わずに,混乱したサンプルを積極的に使用することを提案する。仮想カテゴリー(VC)は、モデルの最適化に安全に貢献できるように、各混乱したサンプルに割り当てられる。私たちの興味深い発見は、密集した視覚タスクにおけるVC学習の利用に注目しています。
論文参考訳（メタデータ） (2023-12-02T16:23:52Z)
Few-shot Class-Incremental Semantic Segmentation via Pseudo-Labeling and Knowledge Distillation [3.4436201325139737]
セマンティックセグメンテーションモデルのための新しいクラスをいくつかの例から学習する問題に対処する。限られたデータから学習するために、数発のトレーニングアノテーションを増強する擬似ラベル方式を提案する。上記のステップを、統一的な学習目標を持つ単一の畳み込みニューラルネットワークに統合する。
論文参考訳（メタデータ） (2023-08-05T05:05:37Z)
Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文参考訳（メタデータ） (2023-03-27T14:15:17Z)
PromptCAL: Contrastive Affinity Learning via Auxiliary Prompts for Generalized Novel Category Discovery [39.03732147384566]
Generalized Novel Category Discovery (GNCD) 設定は、既知のクラスや新しいクラスから来るラベルなしのトレーニングデータを分類することを目的としている。本稿では,この課題に対処するために,PromptCALと呼ばれる補助視覚プロンプトを用いたコントラスト親和性学習法を提案する。提案手法は,クラストークンと視覚的プロンプトのための既知のクラスと新しいクラスのセマンティッククラスタリングを改善するために,信頼性の高いペアワイズサンプル親和性を発見する。
論文参考訳（メタデータ） (2022-12-11T20:06:14Z)
Self-distillation with Batch Knowledge Ensembling Improves ImageNet Classification [57.5041270212206]
本稿では,アンカー画像のためのソフトターゲットを生成するために,BAtch Knowledge Ensembling (BAKE)を提案する。 BAKEは、1つのネットワークだけで複数のサンプルを網羅するオンライン知識を実現する。既存の知識集合法と比較して計算とメモリのオーバーヘッドは最小限である。
論文参考訳（メタデータ） (2021-04-27T16:11:45Z)
Few-Shot Learning with Intra-Class Knowledge Transfer [100.87659529592223]
アンバランスなデータセットを用いた数発の分類タスクについて検討する。近年の研究では、生成モデルを用いて数発の授業のトレーニングデータを増やすことで、この課題を解決することが提案されている。本稿では,近隣クラスが類似した統計情報を共有するという直感で,近隣クラスからのクラス内知識を活用することを提案する。
論文参考訳（メタデータ） (2020-08-22T18:15:38Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。