論文の概要: Image Recognition with Vision and Language Embeddings of VLMs
- arxiv url: http://arxiv.org/abs/2509.09311v1
- Date: Thu, 11 Sep 2025 09:54:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-12 16:52:24.326839
- Title: Image Recognition with Vision and Language Embeddings of VLMs
- Title(参考訳): VLMの視覚と言語埋め込みによる画像認識
- Authors: Illia Volkov, Nikita Kisel, Klara Janouskova, Jiri Matas,
- Abstract要約: 視覚言語モデル(VLM)は、画像テキストアライメントによる強力なゼロショット分類を実現している。
言語誘導画像と視覚のみの画像分類を多種多様なデュアルエンコーダVLMを用いて包括的に評価する。
精度に影響を及ぼす重要な要因は、素早い設計、クラス多様性、k-NNの隣人数、参照セットサイズなどである。
- 参考スコア(独自算出の注目度): 14.022566577479322
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Vision-language models (VLMs) have enabled strong zero-shot classification through image-text alignment. Yet, their purely visual inference capabilities remain under-explored. In this work, we conduct a comprehensive evaluation of both language-guided and vision-only image classification with a diverse set of dual-encoder VLMs, including both well-established and recent models such as SigLIP 2 and RADIOv2.5. The performance is compared in a standard setup on the ImageNet-1k validation set and its label-corrected variant. The key factors affecting accuracy are analysed, including prompt design, class diversity, the number of neighbours in k-NN, and reference set size. We show that language and vision offer complementary strengths, with some classes favouring textual prompts and others better handled by visual similarity. To exploit this complementarity, we introduce a simple, learning-free fusion method based on per-class precision that improves classification performance. The code is available at: https://github.com/gonikisgo/bmvc2025-vlm-image-recognition.
- Abstract(参考訳): 視覚言語モデル(VLM)は、画像テキストアライメントによる強力なゼロショット分類を実現している。
しかし、純粋に視覚的な推論能力はいまだ探索されていない。
本研究では,SigLIP 2 や RADIOv2.5 など,多種多様なデュアルエンコーダ VLM を用いて,言語誘導と視覚のみの画像分類を総合的に評価する。
性能はImageNet-1kバリデーションセットの標準設定とラベルの修正版で比較される。
精度に影響を与える重要な要因は、素早い設計、クラス多様性、k-NNの隣人数、参照セットサイズなどである。
言語と視覚は相補的な強みを示し、いくつかのクラスはテキストのプロンプトを好んでおり、他のクラスは視覚的類似性によってよりうまく扱われている。
この相補性を活かすために,クラスごとの精度に基づく単純な学習自由融合手法を導入し,分類性能を向上する。
コードは以下の通りである。 https://github.com/gonikisgo/bmvc2025-vlm-image-recognition。
関連論文リスト
- TULIP: Towards Unified Language-Image Pretraining [60.99500935831526]
既存のCLIPライクなモデルの代替として,オープンソースでドロップイン可能なTを導入する。
提案手法は, 生成データの拡張, 画像画像の強化, テキストコントラスト学習, 画像/テキスト再構成正規化を利用して, きめ細かい視覚的特徴を学習する。
当社のアプローチでは、ベンチマーク全体で既存の最先端(SOTA)モデルを上回っています。
論文 参考訳(メタデータ) (2025-03-19T17:58:57Z) - ViLa-MIL: Dual-scale Vision-Language Multiple Instance Learning for Whole Slide Image Classification [52.405499816861635]
多重インスタンス学習(MIL)ベースのフレームワークは、スライド画像全体(WSI)を処理する上で主流になっている。
スライド画像全体の分類のための2次元視覚言語多言語学習(ViLa-MIL)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-12T13:28:46Z) - FLAVARS: A Multimodal Foundational Language and Vision Alignment Model for Remote Sensing [5.170800801074805]
コントラスト学習とマスクモデリングを組み合わせた事前学習手法であるFLAVARSを提案する。
FLAVARSは、KNN分類のような視覚のみのタスクにおいて、SkyCLIPのベースラインを著しく上回っている。
論文 参考訳(メタデータ) (2025-01-14T23:31:20Z) - Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - DualCoOp++: Fast and Effective Adaptation to Multi-Label Recognition
with Limited Annotations [79.433122872973]
低ラベル体制における多ラベル画像認識は、大きな課題と実践的重要性の課題である。
我々は、何百万もの補助的な画像テキストペアで事前訓練されたテキストと視覚的特徴の強力なアライメントを活用する。
Evidence-guided Dual Context Optimization (DualCoOp++) という,効率的かつ効果的なフレームワークを導入する。
論文 参考訳(メタデータ) (2023-08-03T17:33:20Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。