論文の概要: Unlocking Few-Shot Capabilities in LVLMs via Prompt Conditioning and Head Selection
- arxiv url: http://arxiv.org/abs/2603.24181v1
- Date: Wed, 25 Mar 2026 11:00:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-26 21:06:11.252519
- Title: Unlocking Few-Shot Capabilities in LVLMs via Prompt Conditioning and Head Selection
- Title(参考訳): プロンプトコンディショニングと頭部選択によるLVLMのアンロック機能
- Authors: Adhemar de Senneville, Xavier Bou, Jérémy Anger, Rafael Grompone, Gabriele Facciolo,
- Abstract要約: 本稿では,LVLMの視覚的特徴クラス分離性について,プロンプト条件を用いた推論により改善可能であることを示す。
ヘッドアンサンブル(HEC)を導入し,CLIPに基づく分類法とLVLMに基づく分類法のパフォーマンスギャップを埋める。
- 参考スコア(独自算出の注目度): 12.487816927241056
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Current Large Vision Language Models (LVLMs) excel at many zero-shot tasks like image captioning, visual question answering and OCR. However, these same models suffer from poor performance at image classification tasks, underperforming against CLIP-based methods. Notably, this gap is surprising because many LVLMs use CLIP-pretrained vision encoders. Yet LVLMs are not inherently limited by CLIP's architecture with independent vision and text encoders. In CLIP, this separation biases classification toward class-name matching rather than joint visual-text reasoning. In this paper we show that, despite their poor raw performance, LVLMs can improve visual feature class separability at inference using prompt conditioning, and LVLMs' internal representations, especially attention heads, can outperform the model itself at zero-shot and few-shot classification. We introduce Head Ensemble Classifiers (HEC) to bridge the performance gap between CLIP-based and LVLM-based classification methods. Inspired by Gaussian Discriminant Analysis, HEC ranks the most discriminative vision and text heads and combines them into a training-free classifier. We show that HEC achieves state-of-the-art performance in few-shot and zero-shot classification across 12 datasets.
- Abstract(参考訳): 現在のLVLM(Large Vision Language Models)は、画像キャプション、視覚的質問応答、OCRなど、多くのゼロショットタスクに優れています。
しかし、これらのモデルでは画像分類タスクのパフォーマンスが悪く、CLIPベースの手法に対して性能が劣っている。
多くのLVLMでは、CLIP-pretrained vision encoderを使用しているため、このギャップは驚くべきものである。
しかし、LVLMは独立した視覚とテキストエンコーダを備えたCLIPアーキテクチャによって本質的に制限されるわけではない。
CLIPでは、この分離は、共同視覚テキスト推論ではなく、クラス名マッチングの分類に偏っている。
本稿では,LVLMの生性能が劣っているにもかかわらず,プロンプト条件付けを用いて推論時の視覚特徴クラス分離性を向上することができ,LVLMの内部表現,特にアテンションヘッドは,ゼロショットと少数ショットの分類においてモデル自体よりも優れていることを示す。
ヘッドアンサンブル分類器(HEC)を導入し,CLIP法とLVLM法のパフォーマンスギャップを埋める。
ガウス判別分析にインスパイアされたHECは、最も差別的な視覚とテキストヘッドをランク付けし、それらをトレーニング不要の分類器に組み合わせる。
HECは12のデータセットにまたがって,数ショット,ゼロショットの分類において最先端のパフォーマンスを実現する。
関連論文リスト
- Diffusion Feedback Helps CLIP See Better [40.125318318373715]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、ドメインとモダリティをまたいだオープンワールド表現の抽象化に優れている。
CLIPには、方向、量、色、構造をほとんど区別できないような、深刻な視覚的欠点がある。
自己教師付き拡散プロセスによって視覚的欠点を克服するCLIPモデルに対する後学習手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T17:00:09Z) - CLAMP: Contrastive LAnguage Model Prompt-tuning [89.96914454453791]
このように適応すれば,大規模な言語モデルでも優れた画像分類性能が得られることを示す。
我々のアプローチは最先端のmLLMを13%上回り、カスタムテキストモデルによる対照的な学習をわずかに上回ります。
論文 参考訳(メタデータ) (2023-12-04T05:13:59Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Waffling around for Performance: Visual Classification with Random Words
and Broad Concepts [121.60918966567657]
WaffleCLIPはゼロショット視覚分類のためのフレームワークで、LLM生成した記述子をランダムな文字と単語記述子に置き換える。
LLM生成記述子で導入された追加意味論の影響と欠点について、広範囲にわたる実験的研究を行う。
論文 参考訳(メタデータ) (2023-06-12T17:59:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。