論文の概要: Improved Zero-Shot Classification by Adapting VLMs with Text
Descriptions
- arxiv url: http://arxiv.org/abs/2401.02460v1
- Date: Thu, 4 Jan 2024 08:39:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-08 16:50:48.450453
- Title: Improved Zero-Shot Classification by Adapting VLMs with Text
Descriptions
- Title(参考訳): テキスト記述によるVLM適応によるゼロショット分類の改善
- Authors: Oindrila Saha, Grant Van Horn, Subhransu Maji
- Abstract要約: 我々は,視覚言語モデル(VLM)を「バグレベル」の画像テキスト管理で訓練する手法を開発した。
我々は,大規模言語モデル(LLM)によって生成されたカテゴリと,豊富な,きめ細かい画像分類データセットを用いて記述する。
以上の結果から,地理的先行は視覚的外観と同等に有効である可能性が示唆された。
- 参考スコア(独自算出の注目度): 27.644484204783144
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The zero-shot performance of existing vision-language models (VLMs) such as
CLIP is limited by the availability of large-scale, aligned image and text
datasets in specific domains. In this work, we leverage two complementary
sources of information -- descriptions of categories generated by large
language models (LLMs) and abundant, fine-grained image classification datasets
-- to improve the zero-shot classification performance of VLMs across
fine-grained domains. On the technical side, we develop methods to train VLMs
with this "bag-level" image-text supervision. We find that simply using these
attributes at test-time does not improve performance, but our training
strategy, for example, on the iNaturalist dataset, leads to an average
improvement of 4-5% in zero-shot classification accuracy for novel categories
of birds and flowers. Similar improvements are observed in domains where a
subset of the categories was used to fine-tune the model. By prompting LLMs in
various ways, we generate descriptions that capture visual appearance, habitat,
and geographic regions and pair them with existing attributes such as the
taxonomic structure of the categories. We systematically evaluate their ability
to improve zero-shot categorization in natural domains. Our findings suggest
that geographic priors can be just as effective and are complementary to visual
appearance. Our method also outperforms prior work on prompt-based tuning of
VLMs. We plan to release the benchmark, consisting of 7 datasets, which will
contribute to future research in zero-shot recognition.
- Abstract(参考訳): CLIPのような既存の視覚言語モデル(VLM)のゼロショット性能は、特定のドメインにおける大規模で整列した画像とテキストデータセットの可用性によって制限される。
本研究では,大言語モデル(LLM)で生成されたカテゴリと,詳細な画像分類データセットの2つの相補的な情報源を利用して,細粒度領域にまたがるVLMのゼロショット分類性能を改善する。
技術面では、この「バグレベル」画像テキスト管理を用いてVLMの訓練方法を開発する。
これらの属性をテスト時に単純に使うと性能は向上しないが、例えばiNaturalistデータセットでは、鳥や花の新規分類におけるゼロショット分類精度が平均4-5%向上する。
同様の改善は、モデルの微調整にカテゴリのサブセットが使われた領域でも観察される。
LLMを様々な方法で促進することにより、視覚的外観、生息地、地理的地域を捉え、それらのカテゴリーの分類学的構造のような既存の属性と組み合わせる記述を生成する。
自然ドメインにおけるゼロショット分類を改善する能力を体系的に評価する。
以上の結果から,地理的先行は視覚的外観と同等に有効である可能性が示唆された。
また,本手法は,VLMのプロンプトベースチューニングにおける先行作業よりも優れていた。
我々は7つのデータセットからなるベンチマークをリリースする予定である。
関連論文リスト
- Retrieval-enriched zero-shot image classification in low-resource domains [23.529317590033845]
低リソースドメインは、言語および視覚的理解タスクにおいて重要な課題を提示する。
VLM(Vision-Language Models)の最近の進歩は、高リソース領域において有望な結果を示しているが、低リソースの概念では不足している。
新たな視点から,ゼロショット低解像度画像分類の課題に取り組む。
論文 参考訳(メタデータ) (2024-11-01T19:24:55Z) - Why are Visually-Grounded Language Models Bad at Image Classification? [39.76294811955341]
GPT-4VやLLaVAといった視覚的言語モデル(VLM)を用いて画像分類タスクを再検討する。
既存のプロプライエタリかつパブリックなVLMは、ImageNetのような標準画像分類ベンチマークにおいてCLIPを著しく上回っていることがわかった。
画像分類のための重要な情報は、VLMの潜在空間に符号化されるが、十分なトレーニングデータで効果的に復号化できる。
論文 参考訳(メタデータ) (2024-05-28T17:57:06Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z) - TAP: Targeted Prompting for Task Adaptive Generation of Textual Training
Instances for Visual Classification [28.72126911321771]
視覚と言語モデル(VLM)は、テキストプロンプトによって記述される潜在的に無制限なカテゴリの視覚的認識を可能にした。
最高の視覚認識性能を得るためには、これらのモデルは下流のタスクのデータ分散をよりよく適合させるためにチューニングが必要である。
論文 参考訳(メタデータ) (2023-09-13T08:59:54Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - Vision-Language Modelling For Radiological Imaging and Reports In The
Low Data Regime [70.04389979779195]
本稿では,視覚および言語入力を共通空間に埋め込んだ医用視覚言語モデル(VLM)について検討する。
本稿では,新しい画像領域やテキスト領域への汎用事前学習モデルの適用など,低データ性能向上のためのいくつかの候補手法について検討する。
テキスト・ツー・イメージ検索をベンチマークとして,2つの胸部X線および放射線学的報告を用いた可変サイズのトレーニングデータセットを用いて,これらの手法の性能評価を行った。
論文 参考訳(メタデータ) (2023-03-30T18:20:00Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Novel Class Discovery in Semantic Segmentation [104.30729847367104]
セマンティックにおける新しいクラス発見(NCDSS)について紹介する。
ラベル付き非結合クラスの集合から事前の知識を与えられた新しいクラスを含むラベル付きイメージのセグメンテーションを目的としている。
NCDSSでは、オブジェクトと背景を区別し、画像内の複数のクラスの存在を処理する必要があります。
本稿では,エントロピーに基づく不確実性モデリングと自己学習(EUMS)フレームワークを提案し,ノイズの多い擬似ラベルを克服する。
論文 参考訳(メタデータ) (2021-12-03T13:31:59Z) - Calibrating Class Activation Maps for Long-Tailed Visual Recognition [60.77124328049557]
本稿では,CNNの長期分布からネットワーク学習を改善するための2つの効果的な修正を提案する。
まず,ネットワーク分類器の学習と予測を改善するために,CAMC (Class Activation Map) モジュールを提案する。
第2に,長期化問題における表現学習における正規化分類器の利用について検討する。
論文 参考訳(メタデータ) (2021-08-29T05:45:03Z) - SCARF: Self-Supervised Contrastive Learning using Random Feature
Corruption [72.35532598131176]
本稿では,特徴のランダムなサブセットを乱してビューを形成するコントラスト学習手法であるSCARFを提案する。
SCARFは既存の戦略を補完し、オートエンコーダのような代替手段より優れていることを示す。
論文 参考訳(メタデータ) (2021-06-29T08:08:33Z) - Weakly-supervised Object Localization for Few-shot Learning and
Fine-grained Few-shot Learning [0.5156484100374058]
少数のサンプルから新しい視覚カテゴリーを学習することを目的としている。
本稿では,自己認識型補完モジュール(SACモジュール)を提案する。
また,数発の分類のために,識別的深層記述子を選択するためのアクティブマスクも生成する。
論文 参考訳(メタデータ) (2020-03-02T14:07:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。