論文の概要: Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts
- arxiv url: http://arxiv.org/abs/2306.07282v1
- Date: Mon, 12 Jun 2023 17:59:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-13 13:24:19.615599
- Title: Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts
- Title(参考訳): パフォーマンスのためのワッフル:ランダムワードと広義概念を用いた視覚的分類
- Authors: Karsten Roth, Jae Myung Kim, A. Sophia Koepke, Oriol Vinyals, Cordelia
Schmid, Zeynep Akata
- Abstract要約: ゼロショット視覚分類のためのフレームワークである texttWaffleCLIP を提案する。
我々は、この動作を詳細に研究し、ゼロショット視覚分類のためのフレームワークであるtexttWaffleCLIPを提案する。
- 参考スコア(独自算出の注目度): 105.72490655416014
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The visual classification performance of vision-language models such as CLIP
can benefit from additional semantic knowledge, e.g. via large language models
(LLMs) such as GPT-3. Further extending classnames with LLM-generated class
descriptors, e.g. ``waffle, \textit{which has a round shape}'', or averaging
retrieval scores over multiple such descriptors, has been shown to improve
generalization performance. In this work, we study this behavior in detail and
propose \texttt{Waffle}CLIP, a framework for zero-shot visual classification
which achieves similar performance gains on a large number of visual
classification tasks by simply replacing LLM-generated descriptors with random
character and word descriptors \textbf{without} querying external models. We
extend these results with an extensive experimental study on the impact and
shortcomings of additional semantics introduced via LLM-generated descriptors,
and showcase how semantic context is better leveraged by automatically querying
LLMs for high-level concepts, while jointly resolving potential class name
ambiguities. Link to the codebase: https://github.com/ExplainableML/WaffleCLIP.
- Abstract(参考訳): CLIPのような視覚言語モデルの視覚的分類性能は、GPT-3のような大きな言語モデル(LLM)を介して追加の意味知識の恩恵を受けることができる。
LLMの生成したクラス記述子(例えば ``waffle, \textit{which has a round shape}'' など)でさらに拡張されたクラス名や、複数の記述子に対する検索スコアの平均化は、一般化性能を向上させることが示されている。
そこで本研究では,LLM生成記述子をランダムな文字と単語記述子に置き換えることによって,多数の視覚的分類タスクにおいて同様のパフォーマンス向上を実現する,ゼロショット視覚分類のためのフレームワークである‘texttt{Waffle}CLIPを提案する。
これらの結果は、LLM生成記述子を介して導入された追加のセマンティックスの影響と欠点に関する広範な実験的研究により拡張され、LLMを高レベルな概念に問合せし、潜在的なクラス名の曖昧さを共同解決することで、セマンティックコンテキストがいかに優れているかを示す。
コードベースへのリンク:https://github.com/ExplainableML/WaffleCLIP。
関連論文リスト
- RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - UMG-CLIP: A Unified Multi-Granularity Vision Generalist for Open-World Understanding [90.74967596080982]
本稿では,マルチグラニュラリティアライメントを備えたコントラスト言語-画像事前学習(CLIP)を拡張した。
UMG-CLIPと呼ばれる統一多言語学習フレームワークを開発した。
パラメータ効率のよいチューニングにより、UMG-CLIPは、現在広く使われているCLIPの亜種を超え、多様な画像理解ベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2024-01-12T06:35:09Z) - Large Language Models are Good Prompt Learners for Low-Shot Image Classification [12.053713356249695]
本稿では,CLIPテキストエンコーダの適応的なプロンプトを生成するLLaMP,Large Language ModelsをPrompt学習者として提案する。
実験により、LLaMPは他の最先端の素早い学習法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方においてより良い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-07T06:43:34Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z) - Visual Classification via Description from Large Language Models [23.932495654407425]
視覚言語モデル(VLM)は、様々な認識タスクにおいて有望な性能を示す。
本稿では,VLMを用いた分類のための代替フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:03:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。