論文の概要: Visually-Grounded Descriptions Improve Zero-Shot Image Classification
- arxiv url: http://arxiv.org/abs/2306.06077v1
- Date: Mon, 5 Jun 2023 17:22:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-18 13:01:10.910870
- Title: Visually-Grounded Descriptions Improve Zero-Shot Image Classification
- Title(参考訳): ゼロショット画像分類を改善するビジュアルグラウンド記述
- Authors: Michael Ogezi, Bradley Hauer, Grzegorz Kondrak
- Abstract要約: V-GLOSS:ビジュアル・グロース(V-GLOSS: Visual Glosses)は、現代言語モデルとセマンティック・ナレッジ・ベースを活用して視覚的に接地されたクラス記述を生成する新しい手法である。
我々は、ImageNetやSTL-10を含むベンチマークZSICデータセット上で、最先端の結果を達成し、V-GLOSSの有効性を実証する。
さらに,V-GLOSSが生成したクラス記述を持つ銀のデータセットを導入し,視覚タスクにその有用性を示す。
- 参考スコア(独自算出の注目度): 5.246722572130605
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language-vision models like CLIP have made significant progress in zero-shot
vision tasks, such as zero-shot image classification (ZSIC). However,
generating specific and expressive class descriptions remains a major
challenge. Existing approaches suffer from granularity and label ambiguity
issues. To tackle these challenges, we propose V-GLOSS: Visual Glosses, a novel
method leveraging modern language models and semantic knowledge bases to
produce visually-grounded class descriptions. We demonstrate V-GLOSS's
effectiveness by achieving state-of-the-art results on benchmark ZSIC datasets
including ImageNet and STL-10. In addition, we introduce a silver dataset with
class descriptions generated by V-GLOSS, and show its usefulness for vision
tasks. We make available our code and dataset.
- Abstract(参考訳): CLIPのような言語ビジョンモデルはゼロショットイメージ分類(ZSIC)のようなゼロショットビジョンタスクにおいて大きな進歩を遂げている。
しかし、特定の表現力のあるクラス記述を生成することは大きな課題である。
既存のアプローチは粒度とラベルの曖昧さの問題に悩まされている。
これらの課題に対処するため,視覚的なクラス記述を生成するために,現代言語モデルと意味的知識ベースを活用した新しい手法であるV-GLOSS: Visual Glossesを提案する。
我々は、ImageNetやSTL-10を含むベンチマークZSICデータセット上で、最先端の結果を達成し、V-GLOSSの有効性を実証する。
さらに,V-GLOSSが生成したクラス記述を持つ銀のデータセットを導入し,視覚タスクにその有用性を示す。
コードとデータセットを利用可能にします。
関連論文リスト
- ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - FLAIR: VLM with Fine-grained Language-informed Image Representations [49.2684130383925]
FLAIRは、局所的な画像埋め込みを学ぶために、長く詳細な画像記述を利用するアプローチである。
実験では,30M画像テキスト対を用いたFLAIRによる微細な視覚情報収集の有効性を実証した。
論文 参考訳(メタデータ) (2024-12-04T18:56:04Z) - GIST: Generating Image-Specific Text for Fine-grained Object
Classification [8.118079247462425]
GISTは、画像のみのデータセットから、画像固有のきめ細かいテキスト記述を生成する方法である。
提案手法は,CLIP線形プローブよりも平均4.1%の精度向上を実現している。
論文 参考訳(メタデータ) (2023-07-21T02:47:18Z) - Text Descriptions are Compressive and Invariant Representations for
Visual Learning [63.3464863723631]
本研究では,クラスごとの複数の視覚的特徴に対する人間の理解に則って,頑健な数ショット学習環境では魅力的な性能が得られることを示す。
特に,SLR-AVD (Sparse Logistic Regression using Augmented Visual Descriptors) という新しい手法を導入する。
このメソッドはまず、まず大きな言語モデル(LLM)を介して各クラスの複数の視覚的記述を自動生成し、次にVLMを使用してこれらの記述を各画像の視覚的特徴埋め込みに変換し、最後に、これらの特徴の関連するサブセットを選択するためにスパースロジスティック回帰を使用する。
論文 参考訳(メタデータ) (2023-07-10T03:06:45Z) - UniFine: A Unified and Fine-grained Approach for Zero-shot
Vision-Language Understanding [84.83494254263138]
ゼロショット視覚言語学習のための微細な情報を利用する統一的なフレームワークを提案する。
我々のフレームワークは従来のVQAのゼロショット法よりも優れており、SNLI-VEとVCRの大幅な改善を実現している。
論文 参考訳(メタデータ) (2023-07-03T09:03:12Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。