論文の概要: ECO: Ensembling Context Optimization for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2307.14063v1
- Date: Wed, 26 Jul 2023 09:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 12:47:33.924660
- Title: ECO: Ensembling Context Optimization for Vision-Language Models
- Title(参考訳): ECO:ビジョンランゲージモデルのためのコンテキスト最適化
- Authors: Lorenzo Agnolucci, Alberto Baldrati, Francesco Todino, Federico
Becattini, Marco Bertini, Alberto Del Bimbo
- Abstract要約: 学習は多様であり、おそらくより短い文脈でかなり改善され、一貫して結果が得られます。
推論時に余分なコストを伴わずに、より優れたショット機能について報告する。
- 参考スコア(独自算出の注目度): 22.32996522125523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image recognition has recently witnessed a paradigm shift, where
vision-language models are now used to perform few-shot classification based on
textual prompts. Among these, the CLIP model has shown remarkable capabilities
for zero-shot transfer by matching an image and a custom textual prompt in its
latent space. This has paved the way for several works that focus on
engineering or learning textual contexts for maximizing CLIP's classification
capabilities. In this paper, we follow this trend by learning an ensemble of
prompts for image classification. We show that learning diverse and possibly
shorter contexts improves considerably and consistently the results rather than
relying on a single trainable prompt. In particular, we report better few-shot
capabilities with no additional cost at inference time. We demonstrate the
capabilities of our approach on 11 different benchmarks.
- Abstract(参考訳): 画像認識は、近ごろパラダイムシフトを目撃し、テキストのプロンプトに基づいた数ショットの分類に視覚言語モデルが使用されている。
これらのうち、CLIPモデルは、画像と独自のテキストプロンプトを潜在空間でマッチングすることで、ゼロショット転送の顕著な機能を示している。
これは、CLIPの分類能力を最大化するためのエンジニアリングやテキストコンテキストの学習に焦点を当てたいくつかの作業の道を開いた。
本稿では,画像分類のためのプロンプトの集合を学習することで,この傾向に従う。
トレーニング可能な1つのプロンプトに頼るのではなく,多様で,おそらく短いコンテキストでの学習が,結果を大幅に改善することを示す。
特に、推論時に追加コストなしで、より優れたマイノリティを報告します。
11のベンチマークで、我々のアプローチの能力を実演します。
関連論文リスト
- Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。
具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。
我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文 参考訳(メタデータ) (2024-06-24T13:45:31Z) - Enhancing Image Retrieval : A Comprehensive Study on Photo Search using
the CLIP Mode [0.27195102129095]
写真検索はCLIP(Contrastive Language- Image Pretraining)モデルの導入によって大きな進歩をみせた。
この要約は、CLIPの基本原理を要約し、写真検索の分野を前進させる可能性を強調している。
論文 参考訳(メタデータ) (2024-01-24T17:35:38Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - LPN: Language-guided Prototypical Network for few-shot classification [16.37959398470535]
ラベル付き例を限定して、新しいタスクに適応することを目的としている。
近年の手法では,クエリとサポート画像の類似性の適切な測定方法が検討されている。
本稿では,言語誘導型プロトタイプネットワーク(LPN)を提案する。
論文 参考訳(メタデータ) (2023-07-04T06:54:01Z) - CoPL: Contextual Prompt Learning for Vision-Language Understanding [21.709017504227823]
画像の局所的な特徴にプロンプトを調整できるコンテキスト型プロンプト学習(CoPL)フレームワークを提案する。
これまでの研究における重要なイノベーションは、素早い学習プロセスの一部としてローカルな画像機能を使うこと、そしてさらに重要なのは、そのタスクに適したローカルな機能に基づいてこれらのプロンプトを重み付けすることである。
本手法は, 工法の現状と比較して, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-07-03T10:14:33Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Zero-shot Image Captioning by Anchor-augmented Vision-Language Space
Alignment [23.072180427273544]
ゼロショット画像キャプションにCLIPを直接利用する場合、文脈のテクスチュラルなモダリティに大きく依存し、視覚情報をほとんど無視する。
これを解決するために、教師なしのクロスモーダル学習を容易にするクロスモーダル言語モデル(CLM)を提案する。
MS COCOとFlickr 30Kの実験は、キャプション品質と計算効率の両方において提案手法の有望な性能を検証した。
論文 参考訳(メタデータ) (2022-11-14T11:12:19Z) - CPL: Counterfactual Prompt Learning for Vision and Language Models [76.18024920393245]
本稿では、視覚と言語モデルのための新しいアンダーラインテキストbfCounterfactual underlinetextbfPrompt underlinetextbfLearning (CPL)法を提案する。
CPLは、共同最適化フレームワークにおいて、反ファクト生成とコントラスト学習を同時に採用している。
実験により、CPLは異なるビジョンと言語タスクにおいて優れた数ショットのパフォーマンスを得ることができることが示された。
論文 参考訳(メタデータ) (2022-10-19T08:06:39Z) - MaPLe: Multi-modal Prompt Learning [54.96069171726668]
本稿では,視覚と言語分岐の両方を対象としたマルチモーダル・プロンプト・ラーニング(MaPLe)を提案し,視覚と言語表現の整合性を改善する。
最先端のCo-CoOpと比較すると、MaPLeは優れた性能を示し、新規クラスでは3.45%の絶対的な向上を達成している。
論文 参考訳(メタデータ) (2022-10-06T17:59:56Z) - Distinctive Image Captioning via CLIP Guided Group Optimization [13.102953452346297]
本稿では,対象画像を他の類似画像と区別できる特徴的なキャプションを生成することに焦点を当てる。
本稿では,大規模視覚言語事前学習モデルCLIPを用いて,その特徴を定量化する一連の指標を提案する。
対象画像を類似画像群と比較し,グループ埋め込みギャップを最適化することにより,モデルのトレーニングを行う,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-08-08T16:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。