論文の概要: Image-Caption Encoding for Improving Zero-Shot Generalization
- arxiv url: http://arxiv.org/abs/2402.02662v1
- Date: Mon, 5 Feb 2024 01:14:07 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 18:11:44.995043
- Title: Image-Caption Encoding for Improving Zero-Shot Generalization
- Title(参考訳): ゼロショット一般化改善のための画像キャプチャエンコーディング
- Authors: Eric Yang Yu, Christopher Liao, Sathvik Ravi, Theodoros Tsiligkaridis,
Brian Kulis
- Abstract要約: OODデータポイントが誤って分類された場合、その正しいクラスはTop-K予測クラスによく見られる。
上位予測クラス内の正しいクラスに対してモデル予測を行うために,イメージ・キャプション (ICE) 法を提案する。
本手法は他のSOTA法と組み合わせて,Top-1 OODアキュラシーを平均0.5%,挑戦的データセットで最大3%向上させることができる。
- 参考スコア(独自算出の注目度): 12.906307770270026
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in vision-language models have combined contrastive
approaches with generative methods to achieve state-of-the-art (SOTA) on
downstream inference tasks like zero-shot image classification. However, a
persistent issue of these models for image classification is their
out-of-distribution (OOD) generalization capabilities. We first show that when
an OOD data point is misclassified, the correct class can be typically found in
the Top-K predicted classes. In order to steer the model prediction toward the
correct class within the top predicted classes, we propose the Image-Caption
Encoding (ICE) method, a straightforward approach that directly enforces
consistency between the image-conditioned and caption-conditioned predictions
at evaluation time only. Intuitively, we take advantage of unique properties of
the generated captions to guide our local search for the correct class label
within the Top-K predicted classes. We show that our method can be easily
combined with other SOTA methods to enhance Top-1 OOD accuracies by 0.5% on
average and up to 3% on challenging datasets. Our code:
https://github.com/Chris210634/ice
- Abstract(参考訳): 近年の視覚言語モデルの進歩は、ゼロショット画像分類のような下流推論タスクにおいて、最先端(SOTA)を実現するための生成手法と対照的なアプローチを組み合わせている。
しかし、画像分類におけるこれらのモデルの永続的な問題は、そのアウト・オブ・ディストリビューション(OOD)一般化能力である。
最初に、OODデータポイントが誤って分類された場合、正しいクラスがTop-K予測クラスによく見られることを示す。
予測クラス内の正しいクラスに対してモデル予測を行うために、評価時にのみ、画像条件付きとキャプション条件付き予測の一貫性を直接強制する簡単なアプローチであるイメージカプセルエンコーディング(ice)法を提案する。
直感的には、生成されたキャプションのユニークな特性を利用して、Top-K予測クラス内の正しいクラスラベルをローカルに検索する。
本手法は他のSOTA法と組み合わせて,Top-1 OODアキュラシーを平均0.5%,挑戦的データセットで最大3%向上できることを示す。
コード:https://github.com/Chris210634/ice
関連論文リスト
- Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - Multi-method Integration with Confidence-based Weighting for Zero-shot Image Classification [1.7265013728931]
本稿では,ゼロショット学習(ZSL)のための新しいフレームワークを提案する。
本稿では,ZSLを扱うためのモデルの性能向上のための3つの戦略を提案する。
論文 参考訳(メタデータ) (2024-05-03T15:02:41Z) - Simple Token-Level Confidence Improves Caption Correctness [117.33497608933169]
Token-Level Confidence(TLC)は、字幕の正確さを評価するシンプルな方法であるが、驚くほど効果的である。
画像キャプションに関する視覚言語モデルを微調整し、画像と提案されたキャプションをモデルに入力し、単語やシーケンスに対するトークンの信頼度を集計し、画像キャプションの一貫性を推定する。
論文 参考訳(メタデータ) (2023-05-11T17:58:17Z) - Enhancing Self-Supervised Learning for Remote Sensing with Elevation
Data: A Case Study with Scarce And High Level Semantic Labels [1.534667887016089]
本研究は、地球観測下流タスクに適用された事前学習モデルに対する、教師なしと教師なしのハイブリッド学習手法を提案する。
我々は、事前訓練モデルに対する対照的なアプローチと画素単位の回帰事前テキストタスクを組み合わせることで、粗い標高マップを予測する。
論文 参考訳(メタデータ) (2023-04-13T23:01:11Z) - Improving Zero-shot Generalization and Robustness of Multi-modal Models [70.14692320804178]
CLIPやLiTのようなマルチモーダルな画像テキストモデルは、画像分類ベンチマークで顕著な性能を示している。
本研究は,この性能差の原因を考察し,テキストプロンプトの曖昧さによる障害事例の多くが原因であることを示す。
本稿では,WordNet階層を用いて,不確実な画像の精度を向上させるための簡易かつ効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-12-04T07:26:24Z) - Masked Unsupervised Self-training for Zero-shot Image Classification [98.23094305347709]
Masked Unsupervised Self-Training (MUST)は、疑似ラベルと生画像という2つの異なる、補完的な監督源を活用する新しいアプローチである。
MUSTはCLIPを大きなマージンで改善し、教師なしと教師なしの分類のパフォーマンスギャップを狭める。
論文 参考訳(メタデータ) (2022-06-07T02:03:06Z) - Prompt-based Learning for Unpaired Image Captioning [86.44188293709307]
Unpaired Image Captioning (UIC) は、非整合視覚言語サンプルペアから画像記述を学習するために開発された。
近年のVision-Language Pre-Trained Models (VL-PTMs) の成功は、プロンプトベース学習の発展を引き起こしている。
本稿では,UICモデルをトレーニングするためのプロンプトに基づく新しいスキームを提案し,その強力な一般化能力を最大限に活用する。
論文 参考訳(メタデータ) (2022-05-26T03:13:43Z) - SCAN: Learning to Classify Images without Labels [73.69513783788622]
機能学習とクラスタリングを分離する2段階のアプローチを提唱する。
表現学習からの自己教師型タスクを用いて意味論的意味のある特徴を得る。
我々は、ImageNet上で有望な結果を得、低データ体制下では、いくつかの半教師付き学習方法より優れています。
論文 参考訳(メタデータ) (2020-05-25T18:12:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。