論文の概要: VL-Taboo: An Analysis of Attribute-based Zero-shot Capabilities of
Vision-Language Models
- arxiv url: http://arxiv.org/abs/2209.06103v1
- Date: Mon, 12 Sep 2022 15:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-14 12:06:10.565516
- Title: VL-Taboo: An Analysis of Attribute-based Zero-shot Capabilities of
Vision-Language Models
- Title(参考訳): VL-Taboo:視覚言語モデルの属性ベースゼロショット能力の解析
- Authors: Felix Vogel, Nina Shvetsova, Leonid Karlinsky, Hilde Kuehne
- Abstract要約: 大規模でランダムに収集されたデータに基づいて訓練された視覚言語モデルは、その出現以来、多くの分野で大きな影響を与えている。
しかし、画像テキスト検索など様々な分野で優れた性能を発揮しているため、その内部動作はいまだに完全には理解されていない。
まずは、テストクラスが本当にゼロショットである程度(そしてどれ)を評価するトレーニングコーパスの分析から始めます。
これらのモデルの属性に基づくゼロショット学習能力の解析に続き、この古典的なゼロショットの概念が大規模なウェブ監視からどれだけうまく現れるかを評価する。
- 参考スコア(独自算出の注目度): 17.00524909491351
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-language models trained on large, randomly collected data had
significant impact in many areas since they appeared. But as they show great
performance in various fields, such as image-text-retrieval, their inner
workings are still not fully understood. The current work analyses the true
zero-shot capabilities of those models. We start from the analysis of the
training corpus assessing to what extent (and which of) the test classes are
really zero-shot and how this correlates with individual classes performance.
We follow up with the analysis of the attribute-based zero-shot learning
capabilities of these models, evaluating how well this classical zero-shot
notion emerges from large-scale webly supervision. We leverage the recently
released LAION400M data corpus as well as the publicly available pretrained
models of CLIP, OpenCLIP, and FLAVA, evaluating the attribute-based zero-shot
capabilities on CUB and AWA2 benchmarks. Our analysis shows that: (i) most of
the classes in popular zero-shot benchmarks are observed (a lot) during
pre-training; (ii) zero-shot performance mainly comes out of models' capability
of recognizing class labels, whenever they are present in the text, and a
significantly lower performing capability of attribute-based zeroshot learning
is only observed when class labels are not used; (iii) the number of the
attributes used can have a significant effect on performance, and can easily
cause a significant performance decrease.
- Abstract(参考訳): 大規模でランダムに収集されたデータに基づいてトレーニングされた視覚言語モデルは、出現以来、多くの領域で大きな影響を与えた。
しかし、画像テキストリトライバリのような様々な分野で優れたパフォーマンスを示すため、その内部動作は未だ完全には理解されていない。
現在の研究は、これらのモデルの真のゼロショット機能を分析している。
最初はトレーニングコーパスの分析から始まり、テストクラスが本当にゼロショットである程度と、それが個々のクラスのパフォーマンスとどのように相関しているかを評価します。
次に,これらのモデルの属性に基づくゼロショット学習能力の分析を行い,この古典的ゼロショット概念が大規模web上の監督からいかに良く生じているかを評価する。
最近リリースされたLAION400MデータコーパスとCLIP、OpenCLIP、FLAVAの事前トレーニングモデルを活用し、CUBおよびAWA2ベンチマークで属性ベースのゼロショット機能を評価する。
私たちの分析では、
(i)人気のあるゼロショットベンチマークのほとんどのクラスは、事前トレーニング中に(多く)観察される。
(二)ゼロショット性能は、主に、テキストに現れるたびにクラスラベルを認識するモデルの能力から生じ、クラスラベルを使用しない場合にのみ属性ベースのゼロショット学習の性能が著しく低下する。
(iii) 使用する属性の数は、性能に重大な影響を与える可能性があり、パフォーマンスが著しく低下するおそれがある。
関連論文リスト
- Active Learning for Vision-Language Models [29.309503214127016]
視覚言語モデル(VLM)のゼロショット分類性能を向上させる新しいアクティブラーニング(AL)フレームワークを提案する。
提案手法はまず, VLMの予測エントロピーを校正し, 自己不確かさと隣接認識の不確実性の組み合わせを用いて, 有効試料選択のための信頼性のある不確実性尺度を算出する。
提案手法は,複数の画像分類データセットにおいて,既存のAL手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-29T16:25:50Z) - Enabling Small Models for Zero-Shot Classification through Model Label Learning [50.68074833512999]
モデルと機能の間のギャップを埋める新しいパラダイムであるモデルラベル学習(MLL)を導入する。
7つの実世界のデータセットの実験により、MLLの有効性と効率が検証された。
論文 参考訳(メタデータ) (2024-08-21T09:08:26Z) - Vision-language Assisted Attribute Learning [53.60196963381315]
大規模な属性ラベリングは通常不完全で部分的である。
既存の属性学習手法は、欠落したラベルを否定的な扱いをすることが多い。
利用可能な視覚言語知識を活用して、モデル学習の強化に欠落しているラベルを明確に明らかにする。
論文 参考訳(メタデータ) (2023-12-12T06:45:19Z) - Z-ICL: Zero-Shot In-Context Learning with Pseudo-Demonstrations [97.41375480696972]
そこで,Z-ICLを提案する。Z-ICL,Z-ICLは,与えられたテスト入力に対して擬似デモを構築することでギャップを埋める新しいゼロショット方式である。
9つの分類データセットの評価は、Z-ICLが従来のゼロショット法よりも有意差で優れていたことを示している。
論文 参考訳(メタデータ) (2022-12-19T21:34:26Z) - Zero-Shot Text Classification with Self-Training [8.68603153534916]
ゼロショット分類器を最も確実な予測で微調整することで、幅広いテキスト分類タスクにおいて大幅な性能向上が期待できることを示す。
自己学習は、手元にあるタスクにゼロショットモデルを適用する。
論文 参考訳(メタデータ) (2022-10-31T17:55:00Z) - A Thorough Examination on Zero-shot Dense Retrieval [84.70868940598143]
本稿では,高密度検索(DR)モデルのゼロショット能力について,初めて徹底的に検討する。
我々は、ソーストレーニングセットに関連するいくつかの重要な要素の効果を議論し、ターゲットデータセットから潜在的なバイアスを分析し、既存のゼロショットDRモデルをレビューし、比較する。
論文 参考訳(メタデータ) (2022-04-27T07:59:07Z) - Make an Omelette with Breaking Eggs: Zero-Shot Learning for Novel
Attribute Synthesis [65.74825840440504]
我々は,ZSLA(Zero Shot Learning for Attributes)を提案する。
提案手法は,新しい属性の検出器をゼロショット学習方式で合成することができる。
提案手法は,Caltech-UCSD Birds-200-2011データセット上の32個の属性のみを用いて,他の207個の新しい属性を合成することができる。
論文 参考訳(メタデータ) (2021-11-28T15:45:54Z) - Using Fictitious Class Representations to Boost Discriminative Zero-Shot
Learners [23.854093182195246]
そこで本研究では,学習中に動的に拡張する機構を導入し,新たな虚構クラスを創出する。
これらの架空のクラスは、トレーニングセットに現れるが、新たに公開されたクラスには現れない属性相関に基づいて、トレーニング中にモデルを固定する傾向を減少させる。
論文 参考訳(メタデータ) (2021-11-26T15:41:16Z) - A Systematic Investigation of Commonsense Understanding in Large
Language Models [23.430757316504316]
大規模な言語モデルでは、ゼロショット設定で多くの自然言語処理(NLP)タスクで顕著なパフォーマンスを示している。
これらのモデルが4つのコモンセンスベンチマークに対してモデルを評価することによってコモンセンス理解を示すかどうかを問う。
論文 参考訳(メタデータ) (2021-10-31T22:20:36Z) - CLASTER: Clustering with Reinforcement Learning for Zero-Shot Action
Recognition [52.66360172784038]
各インスタンスを個別に最適化するのではなく,すべてのトレーニングサンプルを同時に考慮したクラスタリングモデルを提案する。
提案手法をCLASTERと呼び,すべての標準データセットの最先端性を常に改善することを確認する。
論文 参考訳(メタデータ) (2021-01-18T12:46:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。