論文の概要: Will It Zero-Shot?: Will It Zero-Shot?: Predicting Zero-Shot Classification Performance For Arbitrary Queries
- arxiv url: http://arxiv.org/abs/2601.17535v1
- Date: Sat, 24 Jan 2026 17:30:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-27 15:23:07.908969
- Title: Will It Zero-Shot?: Will It Zero-Shot?: Predicting Zero-Shot Classification Performance For Arbitrary Queries
- Title(参考訳): ゼロショットか?:ゼロショットか?:任意クエリのゼロショット分類性能を予測する
- Authors: Kevin Robbins, Xiaotong Liu, Yu Wu, Le Sun, Grady McPeak, Abby Stylianou, Robert Pless,
- Abstract要約: 我々は、与えられた自然言語タスクに対して、モデルがどのようにうまく機能するかを評価するために、テキストのみの比較を使用して、事前の作業の上に構築する。
我々は、ゼロショット精度の予測を評価・改善するために、そのタスクに関連する合成画像を生成するアプローチを検討する。
- 参考スコア(独自算出の注目度): 19.511404894563455
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Vision-Language Models like CLIP create aligned embedding spaces for text and images, making it possible for anyone to build a visual classifier by simply naming the classes they want to distinguish. However, a model that works well in one domain may fail in another, and non-expert users have no straightforward way to assess whether their chosen VLM will work on their problem. We build on prior work using text-only comparisons to evaluate how well a model works for a given natural language task, and explore approaches that also generate synthetic images relevant to that task to evaluate and refine the prediction of zero-shot accuracy. We show that generated imagery to the baseline text-only scores substantially improves the quality of these predictions. Additionally, it gives a user feedback on the kinds of images that were used to make the assessment. Experiments on standard CLIP benchmark datasets demonstrate that the image-based approach helps users predict, without any labeled examples, whether a VLM will be effective for their application.
- Abstract(参考訳): CLIPのようなビジョンランゲージモデルは、テキストとイメージのための整列した埋め込みスペースを作成するため、誰でも区別したいクラスを単純に命名することで、視覚的分類器を構築することができる。
しかし、あるドメインでうまく機能するモデルは別のドメインで失敗する可能性がある。
テキストのみの比較を用いて、与えられた自然言語タスクに対してモデルがどのように機能するかを評価するとともに、そのタスクに関連する合成画像も生成し、ゼロショット精度の予測を評価・改善するアプローチを検討する。
ベースラインのテキストのみのスコアに生成した画像は,これらの予測の質を大幅に向上させることを示す。
さらに、評価に使用された画像の種類に関するフィードバックも提供する。
標準的なCLIPベンチマークデータセットの実験では、イメージベースのアプローチが、VLMがアプリケーションに有効かどうかをラベル付き例なしで予測するのに役立つことが示されている。
関連論文リスト
- SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Revisiting the Role of Language Priors in Vision-Language Models [90.0317841097143]
視覚言語モデル(VLM)は、微調整なしで、ゼロショット方式で様々な視覚的理解タスクに適用される。
我々は、画像から次の単語を生成するために訓練された$textitgenerative VLMs$について研究する。
画像テキスト検索の図解的タスクにおけるゼロショット性能を,8つの人気のある視覚言語ベンチマークで検証する。
論文 参考訳(メタデータ) (2023-06-02T19:19:43Z) - Text-to-Image Diffusion Models are Zero-Shot Classifiers [8.26990105697146]
ゼロショット分類器として評価する手法を提案し,テキスト・画像拡散モデルについて検討した。
本手法を安定拡散およびイメージnに適用し,モデル知識のきめ細かい面を探索する。
彼らは幅広いゼロショット画像分類データセットでCLIPと競合する。
論文 参考訳(メタデータ) (2023-03-27T14:15:17Z) - No Token Left Behind: Explainability-Aided Image Classification and
Generation [79.4957965474334]
ここでは、CLIPが入力のすべての関連する意味的部分に焦点を当てることを保証するために、損失項を追加する新しい説明可能性に基づくアプローチを提案する。
本手法は, 追加訓練や微調整を伴わずに, 認識率の向上を図っている。
論文 参考訳(メタデータ) (2022-04-11T07:16:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。