論文の概要: Vocabulary-free Image Classification
- arxiv url: http://arxiv.org/abs/2306.00917v2
- Date: Tue, 21 Nov 2023 09:38:21 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-23 05:17:33.173460
- Title: Vocabulary-free Image Classification
- Title(参考訳): 語彙なし画像分類
- Authors: Alessandro Conti, Enrico Fini, Massimiliano Mancini, Paolo Rota,
Yiming Wang, Elisa Ricci
- Abstract要約: VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
- 参考スコア(独自算出の注目度): 75.38039557783414
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent advances in large vision-language models have revolutionized the image
classification paradigm. Despite showing impressive zero-shot capabilities, a
pre-defined set of categories, a.k.a. the vocabulary, is assumed at test time
for composing the textual prompts. However, such assumption can be impractical
when the semantic context is unknown and evolving. We thus formalize a novel
task, termed as Vocabulary-free Image Classification (VIC), where we aim to
assign to an input image a class that resides in an unconstrained
language-induced semantic space, without the prerequisite of a known
vocabulary. VIC is a challenging task as the semantic space is extremely large,
containing millions of concepts, with hard-to-discriminate fine-grained
categories. In this work, we first empirically verify that representing this
semantic space by means of an external vision-language database is the most
effective way to obtain semantically relevant content for classifying the
image. We then propose Category Search from External Databases (CaSED), a
method that exploits a pre-trained vision-language model and an external
vision-language database to address VIC in a training-free manner. CaSED first
extracts a set of candidate categories from captions retrieved from the
database based on their semantic similarity to the image, and then assigns to
the image the best matching candidate category according to the same
vision-language model. Experiments on benchmark datasets validate that CaSED
outperforms other complex vision-language frameworks, while being efficient
with much fewer parameters, paving the way for future research in this
direction.
- Abstract(参考訳): 大規模視覚言語モデルの最近の進歩は、画像分類パラダイムに革命をもたらした。
印象的なゼロショット機能を示すにもかかわらず、テキストプロンプトを構成するテスト時に、事前に定義されたカテゴリ、つまり語彙が仮定される。
しかし、意味的文脈が未知で進化している場合、そのような仮定は現実的ではない。
そこで我々は,未制約言語による意味空間に存在するクラスを,既知の語彙の前提条件を伴わずに入力画像に割り当てることを目的として,語彙自由画像分類 (vic) と呼ばれる新しいタスクを定式化する。
VICは、意味空間が非常に大きく、数百万の概念が含まれており、分類が難しいため、難しい課題である。
本稿では,この意味空間を外部ビジョン言語データベースを用いて表現することが,画像の分類に意味的に関連のあるコンテンツを得る上で最も効果的な方法であることを実証的に検証する。
次に、事前学習された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法であるCaSED(Caegory Search from Foreign Databases)を提案する。
CaSEDはまず、画像と意味的類似性に基づいてデータベースから検索したキャプションから候補カテゴリの集合を抽出し、同じ視覚言語モデルに基づいて最適な候補カテゴリを画像に割り当てる。
ベンチマークデータセットの実験では、CaSEDは他の複雑なビジョン言語フレームワークよりも優れており、パラメータははるかに少なく、将来的な研究の道を開くことができる。
関連論文リスト
- Vocabulary-free Image Classification and Semantic Segmentation [71.78089106671581]
本稿では,Vocabulary-free Image Classification (VIC)タスクを導入する。これは,制約のない言語による意味空間から,既知の語彙を必要とせずに,入力画像にクラスを割り当てることを目的としている。
VICは、細かなカテゴリを含む数百万の概念を含む意味空間の広さのために、挑戦的である。
本稿では,事前学習された視覚言語モデルと外部データベースを利用した学習自由度手法CaSEDを提案する。
論文 参考訳(メタデータ) (2024-04-16T19:27:21Z) - Rewrite Caption Semantics: Bridging Semantic Gaps for
Language-Supervised Semantic Segmentation [100.81837601210597]
本研究では,事前学習データにおける視覚的意味論とテキスト的意味論のギャップを埋めるための概念キュレーション(CoCu)を提案する。
CoCuは、最高にゼロショット転送性能を達成し、言語教師ありセグメンテーションベースラインを大きなマージンで大幅に向上させる。
論文 参考訳(メタデータ) (2023-09-24T00:05:39Z) - Cross-Modal Concept Learning and Inference for Vision-Language Models [31.463771883036607]
既存の微調整法では、クラス固有のテキスト記述は画像全体と一致している。
我々は、クロスモデル概念学習と推論(CCLI)と呼ばれる新しい手法を開発した。
本手法は,意味テキストの集合を用いて画像から視覚的特徴の集合を自動的に学習する。
論文 参考訳(メタデータ) (2023-07-28T10:26:28Z) - Advancing Visual Grounding with Scene Knowledge: Benchmark and Method [74.72663425217522]
ビジュアルグラウンドディング(VG)は、視覚と言語の間にきめ細かいアライメントを確立することを目的としている。
既存のVGデータセットの多くは、単純な記述テキストを使って構築されている。
我々は、アンダーラインScene underline-guided underlineVisual underlineGroundingの新たなベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-21T13:06:02Z) - What's in a Name? Beyond Class Indices for Image Recognition [28.02490526407716]
そこで本稿では,カテゴリの巨大語彙のみを先行情報として付与した画像に,クラス名を割り当てる視覚言語モデルを提案する。
非パラメトリックな手法を用いて画像間の有意義な関係を確立することにより、モデルが候補名のプールを自動的に絞り込むことができる。
本手法は,教師なし環境でのImageNetのベースラインを約50%改善する。
論文 参考訳(メタデータ) (2023-04-05T11:01:23Z) - Natural Scene Image Annotation Using Local Semantic Concepts and Spatial
Bag of Visual Words [0.0]
本稿では,事前に定義された語彙から局所的な意味ラベルを付加した自然なシーン画像の自動アノテーションフレームワークを提案する。
このフレームワークは、自然な場面では、中間的な意味概念が局所的なキーポイントと相関していると仮定する仮説に基づいている。
この仮説に基づいて、画像領域をBOWモデルで効率よく表現し、SVMのような機械学習アプローチを使用して、セマンティックアノテーションで画像領域をラベル付けすることができる。
論文 参考訳(メタデータ) (2022-10-17T12:57:51Z) - A Simple Baseline for Zero-shot Semantic Segmentation with Pre-trained
Vision-language Model [61.58071099082296]
オブジェクト検出やセマンティックセグメンテーションといった、より広範な視覚問題に対して、ゼロショット認識をどのようにうまく機能させるかは定かではない。
本稿では,既訓練の視覚言語モデルであるCLIPを用いて,ゼロショットセマンティックセマンティックセマンティックセマンティクスを構築することを目的とした。
実験結果から, この単純なフレームワークは, 従来の最先端をはるかに上回っていることが明らかとなった。
論文 参考訳(メタデータ) (2021-12-29T18:56:18Z) - Deep Semantic Dictionary Learning for Multi-label Image Classification [3.3989824361632337]
本稿では,辞書学習課題であるマルチラベル画像分類の解法に向けて,革新的な方法を提案する。
Deep Semantic Dictionary Learning(DSDL)という新しいエンドツーエンドモデルが設計されている。
コードとモデルを公開しました。
論文 参考訳(メタデータ) (2020-12-23T06:22:47Z) - Learning Representations by Predicting Bags of Visual Words [55.332200948110895]
自己教師付き表現学習ターゲットは、ラベルなしデータから畳み込みに基づく画像表現を学習する。
この分野におけるNLP手法の成功に触発された本研究では,空間的に高密度な画像記述に基づく自己教師型アプローチを提案する。
論文 参考訳(メタデータ) (2020-02-27T16:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。