論文の概要: Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model
- arxiv url: http://arxiv.org/abs/2507.23070v1
- Date: Wed, 30 Jul 2025 20:06:01 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:08.630955
- Title: Vocabulary-free Fine-grained Visual Recognition via Enriched Contextually Grounded Vision-Language Model
- Title(参考訳): 拡張文脈基底型視覚言語モデルによる語彙自由きめ細粒度視覚認識
- Authors: Dmitry Demidov, Zaigham Zaheer, Omkar Thawakar, Salman Khan, Fahad Shahbaz Khan,
- Abstract要約: 伝統的なアプローチは固定語彙と閉集合分類パラダイムに大きく依存している。
近年の研究では、大規模言語モデルと視覚言語モデル(VLM)を組み合わせることで、オープンセット認識が可能であることが実証されている。
そこで本研究では,精密な視覚認識のための最先端の手法であるEnriched-FineRを提案する。
- 参考スコア(独自算出の注目度): 52.01031460230826
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Fine-grained image classification, the task of distinguishing between visually similar subcategories within a broader category (e.g., bird species, car models, flower types), is a challenging computer vision problem. Traditional approaches rely heavily on fixed vocabularies and closed-set classification paradigms, limiting their scalability and adaptability in real-world settings where novel classes frequently emerge. Recent research has demonstrated that combining large language models (LLMs) with vision-language models (VLMs) makes open-set recognition possible without the need for predefined class labels. However, the existing methods are often limited in harnessing the power of LLMs at the classification phase, and also rely heavily on the guessed class names provided by an LLM without thorough analysis and refinement. To address these bottlenecks, we propose our training-free method, Enriched-FineR (or E-FineR for short), which demonstrates state-of-the-art results in fine-grained visual recognition while also offering greater interpretability, highlighting its strong potential in real-world scenarios and new domains where expert annotations are difficult to obtain. Additionally, we demonstrate the application of our proposed approach to zero-shot and few-shot classification, where it demonstrated performance on par with the existing SOTA while being training-free and not requiring human interventions. Overall, our vocabulary-free framework supports the shift in image classification from rigid label prediction to flexible, language-driven understanding, enabling scalable and generalizable systems for real-world applications. Well-documented code is available on https://github.com/demidovd98/e-finer.
- Abstract(参考訳): 視覚的に類似したサブカテゴリ(例えば、鳥類種、自動車モデル、花型)を識別するタスクであるきめ細かい画像分類は、コンピュータビジョンの問題である。
従来のアプローチは、固定語彙やクローズドセットの分類パラダイムに大きく依存しており、新しいクラスが頻繁に出現する現実の環境では、そのスケーラビリティと適応性を制限する。
近年,大規模言語モデル (LLM) と視覚言語モデル (VLM) を組み合わせることで,事前に定義されたクラスラベルを必要とせずに,オープンセットの認識が可能になることが実証されている。
しかし,従来の手法は LLM の分類段階におけるパワーの活用に限られることが多く,解析や改良を伴わずに LLM が提供する推定クラス名に大きく依存している。
これらのボトルネックに対処するため、我々は、実世界のシナリオやエキスパートアノテーションが入手困難な新しいドメインにおいて、より深い解釈性を提供しながら、最先端の視覚認識の結果を示す訓練不要な手法であるEnriched-FineR(略してE-FineR)を提案する。
さらに,提案手法をゼロショット・少数ショット分類に適用し,既存のSOTAと同等の性能を示しながら,人間の介入を必要としないことを示した。
ボキャブラリフリーなフレームワークは、厳密なラベル予測から柔軟で言語駆動的な理解へのイメージ分類のシフトをサポートし、現実世界のアプリケーションにスケーラブルで一般化可能なシステムを実現する。
よくドキュメント化されたコードはhttps://github.com/demidovd98/e-finer.comで入手できる。
関連論文リスト
- Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.740929527669483]
部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。
セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。
提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文 参考訳(メタデータ) (2024-12-14T14:31:36Z) - Towards Generative Class Prompt Learning for Fine-grained Visual Recognition [5.633314115420456]
ジェネレーティブ・クラス・プロンプト・ラーニングとコントラスト・マルチクラス・プロンプト・ラーニングを紹介する。
Generative Class Prompt Learningは、学習可能なクラスプロンプトを持つ数ショットの例に条件付けすることで、クラス埋め込みにおける視覚言語相乗性を改善する。
CoMPLeはこの基盤の上に構築されており、クラス間の分離を促進する対照的な学習コンポーネントを導入している。
論文 参考訳(メタデータ) (2024-09-03T12:34:21Z) - Evolving Interpretable Visual Classifiers with Large Language Models [34.4903887876357]
CLIPのようなマルチモーダル事前訓練モデルは、オープン語彙の柔軟性と高性能のため、ゼロショット分類に人気がある。
画像とクラスラベルの類似点を計算する視覚言語モデルは、ほとんどブラックボックスであり、解釈可能性の制限、バイアスのリスク、書き下がらない新しい視覚概念の発見ができない。
本稿では,視覚認識のための属性の解釈可能かつ差別的集合を検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:09:53Z) - Democratizing Fine-grained Visual Recognition with Large Language Models [80.49811421427167]
画像から下位レベルのカテゴリを識別することは、コンピュータビジョンにおける長年の課題であり、きめ細かい視覚認識(FGVR)と呼ばれる。
FGVRシステムの開発における大きなボトルネックは、高品質なペアのエキスパートアノテーションの必要性によって引き起こされる。
本研究では,大規模言語モデル (LLM) の世界の知識をプロキシとして内部的に活用する,きめ細かなセマンティックカテゴリー推論(FineR)を提案する。
トレーニングフリーのFineRは、最先端のFGVRや言語、ビジョンアシスタントモデルより優れており、野生や新しい領域で働くことを約束しています。
論文 参考訳(メタデータ) (2024-01-24T22:28:26Z) - Vocabulary-free Image Classification [75.38039557783414]
VIC(Vocabulary-free Image Classification)と呼ばれる新しいタスクを定式化する。
VICは、既知の語彙を必要とせずに、制約のない言語によって引き起こされる意味空間に存在するクラスを入力画像に割り当てることを目的としている。
CaSEDは、事前訓練された視覚言語モデルと外部視覚言語データベースを利用して、VICをトレーニング不要に対処する手法である。
論文 参考訳(メタデータ) (2023-06-01T17:19:43Z) - SgVA-CLIP: Semantic-guided Visual Adapting of Vision-Language Models for
Few-shot Image Classification [84.05253637260743]
本稿では,セマンティック誘導視覚適応(SgVA)と呼ばれる新しいフレームワークを提案する。
SgVAは、視覚特異的のコントラスト損失、クロスモーダルのコントラスト損失、暗黙の知識蒸留を包括的に利用することで、識別的なタスク固有の視覚特徴を生成する。
13のデータセットの最先端の結果は、適応された視覚的特徴が、クロスモーダルな特徴を補完し、少数の画像分類を改善することを実証している。
論文 参考訳(メタデータ) (2022-11-28T14:58:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。