論文の概要: Inferring Latent Class Statistics from Text for Robust Visual Few-Shot
Learning
- arxiv url: http://arxiv.org/abs/2311.14544v1
- Date: Fri, 24 Nov 2023 15:23:47 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-27 14:49:10.763269
- Title: Inferring Latent Class Statistics from Text for Robust Visual Few-Shot
Learning
- Title(参考訳): 頑健な視覚深層学習のためのテキストから潜在クラス統計を推定する
- Authors: Yassir Bendou, Vincent Gripon, Bastien Pasdeloup, Giulia Lioi, Lukas
Mauch, Fabien Cardinaux and Ghouthi Boukli Hacene
- Abstract要約: 本稿では,各クラスにおける視覚的特徴分布の平均と共分散を予測するために,テキスト由来の統計情報を活用する新しい手法を提案する。
提案手法は,テキストを用いて分布の平均と共分散を予測し,数発の学習シナリオにおいて有望な改善をもたらすことを示す。
- 参考スコア(独自算出の注目度): 4.300029426596762
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: In the realm of few-shot learning, foundation models like CLIP have proven
effective but exhibit limitations in cross-domain robustness especially in
few-shot settings. Recent works add text as an extra modality to enhance the
performance of these models. Most of these approaches treat text as an
auxiliary modality without fully exploring its potential to elucidate the
underlying class visual features distribution. In this paper, we present a
novel approach that leverages text-derived statistics to predict the mean and
covariance of the visual feature distribution for each class. This predictive
framework enriches the latent space, yielding more robust and generalizable
few-shot learning models. We demonstrate the efficacy of incorporating both
mean and covariance statistics in improving few-shot classification performance
across various datasets. Our method shows that we can use text to predict the
mean and covariance of the distribution offering promising improvements in
few-shot learning scenarios.
- Abstract(参考訳): 数ショットの学習という領域では、CLIPのような基礎モデルは有効だが、特に数ショット設定では、ドメイン間の堅牢性に制限がある。
最近の研究は、これらのモデルの性能を高める余分なモダリティとしてテキストを追加する。
これらのアプローチの多くは、下層の視覚的特徴分布を解明する可能性を完全に探ることなく、テキストを補助的モダリティとして扱う。
本稿では,テキスト由来の統計情報を用いて,各クラスにおける視覚特徴分布の平均と共分散を予測する新しい手法を提案する。
この予測フレームワークは潜在空間を豊かにし、より堅牢で一般化可能な数発の学習モデルをもたらす。
そこで本研究では, 平均分布統計値と共分散統計値の両方を組み込むことにより, 各種データセットのマイナショット分類性能を向上させる効果を実証する。
提案手法は, 数発学習シナリオにおいて, 分布の平均と共分散をテキストで予測し, 有望な改善をもたらすことを示す。
関連論文リスト
- Realistic Test-Time Adaptation of Vision-Language Models [23.972884634610413]
VLM(Vision-Language Models)は、予測性能を改善するために広く活用されている。
トランスダクティブまたはテストタイム適応(TTA)に関する以前の研究は、しばしばデータ分布について強い仮定を下す。
私たちの作業は、これらの好ましいデプロイメントシナリオに挑戦し、より現実的な評価フレームワークを導入します。
論文 参考訳(メタデータ) (2025-01-07T12:17:25Z) - Enhancing Few-Shot Image Classification through Learnable Multi-Scale Embedding and Attention Mechanisms [1.1557852082644071]
少数の分類の文脈において、ゴールは、限られた数のサンプルを使用して分類器を訓練することである。
伝統的なメートル法は、この目的を達成するための一定の限界を示す。
提案手法では,サンプルを異なる特徴空間にマッピングするマルチ出力埋め込みネットワークを利用する。
論文 参考訳(メタデータ) (2024-09-12T12:34:29Z) - BaFTA: Backprop-Free Test-Time Adaptation For Zero-Shot Vision-Language Models [20.88680592729709]
本稿では,視覚言語モデルの試験時間適応のためのバックプロパゲーションフリーアルゴリズムBaFTAを提案する。
BaFTAは、投影された埋め込み空間内のオンラインクラスタリングを使用して、クラスセントロイドを直接推定する。
我々は,BaFTAが最先端の試験時間適応手法を効率と効率の両方で一貫して上回っていることを実証した。
論文 参考訳(メタデータ) (2024-06-17T08:16:24Z) - The Common Stability Mechanism behind most Self-Supervised Learning
Approaches [64.40701218561921]
自己指導型学習手法の安定性のメカニズムを説明するための枠組みを提供する。
我々は,BYOL,SWAV,SimSiam,Barlow Twins,DINOなどの非コントラスト技術であるSimCLRの動作メカニズムについて議論する。
私たちは異なる仮説を定式化し、Imagenet100データセットを使ってそれらをテストします。
論文 参考訳(メタデータ) (2024-02-22T20:36:24Z) - Make Prompts Adaptable: Bayesian Modeling for Vision-Language Prompt
Learning with Data-Dependent Prior [14.232144691524528]
最近のVision-Language Pretrainedモデルは、多くの下流タスクのバックボーンとなっている。
MLEトレーニングは、トレーニングデータにおいて、コンテキストベクトルを過度に適合する画像特徴に導くことができる。
本稿では,素早い学習のためのベイズ的枠組みを提案する。
論文 参考訳(メタデータ) (2024-01-09T10:15:59Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - UniDiff: Advancing Vision-Language Models with Generative and
Discriminative Learning [86.91893533388628]
本稿では、画像テキストコントラスト学習(ITC)、テキスト条件付き画像合成学習(IS)、相互意味整合性モデリング(RSC)を統合した統合マルチモーダルモデルUniDiffを提案する。
UniDiffはマルチモーダル理解と生成タスクの両方において汎用性を示す。
論文 参考訳(メタデータ) (2023-06-01T15:39:38Z) - Few-shot Text Classification with Dual Contrastive Consistency [31.141350717029358]
本稿では,事前学習した言語モデルを用いて,数ショットのテキスト分類を行う方法について検討する。
ラベル付きデータが少ない場合の教師付きコントラスト学習と、ラベルなしデータの一貫性と規則化を採用する。
論文 参考訳(メタデータ) (2022-09-29T19:26:23Z) - Revisiting Consistency Regularization for Semi-Supervised Learning [80.28461584135967]
そこで我々は,FeatDistLossというシンプルな手法により,一貫性の規則化を改良したフレームワークを提案する。
実験結果から,本モデルは様々なデータセットや設定のための新しい技術状態を定義する。
論文 参考訳(メタデータ) (2021-12-10T20:46:13Z) - Revisiting Self-Training for Few-Shot Learning of Language Model [61.173976954360334]
ラベル付きデータにはタスク関連情報が豊富に含まれており、言語モデルの素早い学習に有用であることが証明されている。
本研究では,言語モデルファインチューニングのための自己学習手法を再検討し,最先端のプロンプトベースの少ショット学習者,SFLMを提案する。
論文 参考訳(メタデータ) (2021-10-04T08:51:36Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。