論文の概要: Enhancing Visual Classification using Comparative Descriptors
- arxiv url: http://arxiv.org/abs/2411.05357v2
- Date: Mon, 11 Nov 2024 02:24:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-12 14:09:35.061727
- Title: Enhancing Visual Classification using Comparative Descriptors
- Title(参考訳): 比較記述子を用いた視覚分類の強化
- Authors: Hankyeol Lee, Gawon Seo, Wonseok Choi, Geunyoung Jung, Kyungwoo Song, Jiyoung Jung,
- Abstract要約: 比較記述子という新しい概念を導入する。
これらの記述子は、最も類似したクラスに対してターゲットクラスのユニークな特徴を強調し、差別化を強化する。
追加のフィルタリングプロセスにより、これらのディスクリプタがCLIP空間のイメージ埋め込みに近いことが保証される。
- 参考スコア(独自算出の注目度): 13.094102298155736
- License:
- Abstract: The performance of vision-language models (VLMs), such as CLIP, in visual classification tasks, has been enhanced by leveraging semantic knowledge from large language models (LLMs), including GPT. Recent studies have shown that in zero-shot classification tasks, descriptors incorporating additional cues, high-level concepts, or even random characters often outperform those using only the category name. In many classification tasks, while the top-1 accuracy may be relatively low, the top-5 accuracy is often significantly higher. This gap implies that most misclassifications occur among a few similar classes, highlighting the model's difficulty in distinguishing between classes with subtle differences. To address this challenge, we introduce a novel concept of comparative descriptors. These descriptors emphasize the unique features of a target class against its most similar classes, enhancing differentiation. By generating and integrating these comparative descriptors into the classification framework, we refine the semantic focus and improve classification accuracy. An additional filtering process ensures that these descriptors are closer to the image embeddings in the CLIP space, further enhancing performance. Our approach demonstrates improved accuracy and robustness in visual classification tasks by addressing the specific challenge of subtle inter-class differences.
- Abstract(参考訳): 視覚分類タスクにおけるCLIPなどの視覚言語モデル(VLM)の性能は、GPTを含む大規模言語モデル(LLM)からの意味知識を活用することで向上している。
近年の研究では、ゼロショット分類タスクでは、追加のキュー、ハイレベルな概念、あるいはランダムな文字を組み込んだ記述子が、カテゴリ名のみを使用した場合よりも優れていることが示されている。
多くの分類タスクでは、トップ1の精度は比較的低いが、トップ5の精度は著しく高い。
このギャップは、ほとんどの誤分類がいくつかの類似したクラスで発生し、微妙な違いのあるクラスを区別することの難しさを強調している。
この課題に対処するために、比較記述子という新しい概念を導入する。
これらの記述子は、最も類似したクラスに対してターゲットクラスのユニークな特徴を強調し、差別化を強化する。
これらの比較記述子を分類フレームワークに生成・統合することにより、セマンティックフォーカスを洗練し、分類精度を向上させる。
追加のフィルタリングプロセスにより、これらのディスクリプタはCLIP空間のイメージ埋め込みに近くなり、パフォーマンスがさらに向上する。
本手法は,クラス間の微妙な違いの特定課題に対処することにより,視覚的分類タスクの精度と堅牢性の向上を実証する。
関連論文リスト
- RAR: Retrieving And Ranking Augmented MLLMs for Visual Recognition [78.97487780589574]
MLLM(Multimodal Large Language Models)は、細粒度カテゴリの分類において優れている。
本稿では,MLLMの検索とランク付けのための拡張手法を提案する。
提案手法は, 微粒化認識における固有の限界に対処するだけでなく, モデルの包括的知識基盤も維持する。
論文 参考訳(メタデータ) (2024-03-20T17:59:55Z) - LLMs as Visual Explainers: Advancing Image Classification with Evolving
Visual Descriptions [13.546494268784757]
本稿では,大規模言語モデル (LLM) と視覚言語モデル (VLM) を統合し,最適なクラス記述子を求めるフレームワークを提案する。
我々の学習自由アプローチは、反復的にクラス記述子を洗練するための進化的最適化戦略を備えたLLMベースのエージェントを開発する。
論文 参考訳(メタデータ) (2023-11-20T16:37:45Z) - Mitigating Word Bias in Zero-shot Prompt-based Classifiers [55.60306377044225]
一致したクラス先行は、オラクルの上界性能と強く相関していることを示す。
また,NLPタスクに対するプロンプト設定において,一貫したパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2023-09-10T10:57:41Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z) - Visual Classification via Description from Large Language Models [23.932495654407425]
視覚言語モデル(VLM)は、様々な認識タスクにおいて有望な性能を示す。
本稿では,VLMを用いた分類のための代替フレームワークを提案する。
論文 参考訳(メタデータ) (2022-10-13T17:03:46Z) - Fine-Grained Visual Classification using Self Assessment Classifier [12.596520707449027]
識別的特徴の抽出は、きめ細かい視覚的分類タスクにおいて重要な役割を担っている。
本稿では,画像とトップkの予測クラスを同時に活用する自己評価手法を提案する。
本手法は,CUB200-2011,Stanford Dog,FGVC Aircraft のデータセットに対して,最新の結果が得られることを示す。
論文 参考訳(メタデータ) (2022-05-21T07:41:27Z) - Comparison Knowledge Translation for Generalizable Image Classification [31.530232003512957]
画像分類タスクにおいて,人間の認識機構をエミュレートする一般化可能なフレームワークを構築した。
本稿では,比較分類器とマッチング判別器を組み合わせた比較分類翻訳ネットワーク(CCT-Net)を提案する。
CCT-Netは、未確認カテゴリにおける驚くほどの一般化能力と、対象カテゴリにおけるSOTA性能を実現する。
論文 参考訳(メタデータ) (2022-05-07T11:05:18Z) - On Guiding Visual Attention with Language Specification [76.08326100891571]
注意をそらすのではなく,タスク関連機能に分類証拠を限定するためのアドバイスとして,ハイレベルな言語仕様を用いる。
この方法で空間的注意を監督することは、偏りのあるノイズのあるデータを用いた分類タスクの性能を向上させる。
論文 参考訳(メタデータ) (2022-02-17T22:40:19Z) - CLLD: Contrastive Learning with Label Distance for Text Classificatioin [0.6299766708197883]
コントラストクラスを学習するためのCLLD(Contrastive Learning with Label Distance)を提案する。
CLLDは、ラベルの割り当てに繋がる微妙な違いの中で、柔軟性を保証する。
実験の結果,学習したラベル距離は,クラス間の対立性を緩和することが示唆された。
論文 参考訳(メタデータ) (2021-10-25T07:07:14Z) - Multi-Label Image Classification with Contrastive Learning [57.47567461616912]
コントラスト学習の直接適用は,複数ラベルの場合においてほとんど改善できないことを示す。
完全教師付き環境下でのコントラスト学習を用いたマルチラベル分類のための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-07-24T15:00:47Z) - Learning and Evaluating Representations for Deep One-class
Classification [59.095144932794646]
ディープワンクラス分類のための2段階フレームワークを提案する。
まず,一級データから自己教師付き表現を学習し,学習した表現に基づいて一級分類器を構築する。
実験では、視覚領域の1クラス分類ベンチマークで最先端の性能を示す。
論文 参考訳(メタデータ) (2020-11-04T23:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。