論文の概要: ECO: Ensembling Context Optimization for Vision-Language Models
- arxiv url: http://arxiv.org/abs/2307.14063v1
- Date: Wed, 26 Jul 2023 09:31:06 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-27 12:47:33.924660
- Title: ECO: Ensembling Context Optimization for Vision-Language Models
- Title(参考訳): ECO:ビジョンランゲージモデルのためのコンテキスト最適化
- Authors: Lorenzo Agnolucci, Alberto Baldrati, Francesco Todino, Federico
Becattini, Marco Bertini, Alberto Del Bimbo
- Abstract要約: 学習は多様であり、おそらくより短い文脈でかなり改善され、一貫して結果が得られます。
推論時に余分なコストを伴わずに、より優れたショット機能について報告する。
- 参考スコア(独自算出の注目度): 22.32996522125523
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Image recognition has recently witnessed a paradigm shift, where
vision-language models are now used to perform few-shot classification based on
textual prompts. Among these, the CLIP model has shown remarkable capabilities
for zero-shot transfer by matching an image and a custom textual prompt in its
latent space. This has paved the way for several works that focus on
engineering or learning textual contexts for maximizing CLIP's classification
capabilities. In this paper, we follow this trend by learning an ensemble of
prompts for image classification. We show that learning diverse and possibly
shorter contexts improves considerably and consistently the results rather than
relying on a single trainable prompt. In particular, we report better few-shot
capabilities with no additional cost at inference time. We demonstrate the
capabilities of our approach on 11 different benchmarks.
- Abstract(参考訳): 画像認識は、近ごろパラダイムシフトを目撃し、テキストのプロンプトに基づいた数ショットの分類に視覚言語モデルが使用されている。
これらのうち、CLIPモデルは、画像と独自のテキストプロンプトを潜在空間でマッチングすることで、ゼロショット転送の顕著な機能を示している。
これは、CLIPの分類能力を最大化するためのエンジニアリングやテキストコンテキストの学習に焦点を当てたいくつかの作業の道を開いた。
本稿では,画像分類のためのプロンプトの集合を学習することで,この傾向に従う。
トレーニング可能な1つのプロンプトに頼るのではなく,多様で,おそらく短いコンテキストでの学習が,結果を大幅に改善することを示す。
特に、推論時に追加コストなしで、より優れたマイノリティを報告します。
11のベンチマークで、我々のアプローチの能力を実演します。
関連論文リスト
- Ranking-aware adapter for text-driven image ordering with CLIP [76.80965830448781]
本稿では,CLIPモデルを学習からランクへのタスクに再構成する,効率的かつ効率的な手法を提案する。
我々のアプローチは、ランキングの目的のために新しい指示に適応するための学習可能なプロンプトを取り入れている。
私たちのランキングアウェアアダプタは、様々なタスクにおいて微調整されたCLIPよりも一貫して優れています。
論文 参考訳(メタデータ) (2024-12-09T18:51:05Z) - Grounding Descriptions in Images informs Zero-Shot Visual Recognition [47.66166611138081]
我々は,表現を細かなレベルと粗いレベルの両方で同時に調整することを目的とした,新しい事前学習戦略であるGRAINを提案する。
我々は,現在の最先端技術と比較して,モデルのゼロショット性能の向上を実証する。
論文 参考訳(メタデータ) (2024-12-05T18:52:00Z) - Vision-Language Consistency Guided Multi-modal Prompt Learning for Blind AI Generated Image Quality Assessment [57.07360640784803]
視覚言語による多モーダル・プロンプト学習による画像品質評価(AGIQA)を提案する。
具体的には、コントラスト言語-画像事前学習(CLIP)モデルの言語と視覚の分岐に学習可能なテキストと視覚的プロンプトを導入する。
我々は、上記のマルチモーダルプロンプトの最適化を導くために、学習された視覚言語一貫性の知識を用いて、テキストから画像へのアライメント品質予測タスクを設計する。
論文 参考訳(メタデータ) (2024-06-24T13:45:31Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Understanding Transferable Representation Learning and Zero-shot Transfer in CLIP [84.90129481336659]
CLIPの基盤となるトランスファーブル表現学習について検討し、異なるモダリティの特徴の整合性を実証する。
そこで本研究では,ベンチマークデータセット上でのCLIPや他の最先端手法よりも優れた性能を実現するCLIP型アプローチを提案する。
論文 参考訳(メタデータ) (2023-10-02T06:41:30Z) - CoPL: Contextual Prompt Learning for Vision-Language Understanding [21.709017504227823]
画像の局所的な特徴にプロンプトを調整できるコンテキスト型プロンプト学習(CoPL)フレームワークを提案する。
これまでの研究における重要なイノベーションは、素早い学習プロセスの一部としてローカルな画像機能を使うこと、そしてさらに重要なのは、そのタスクに適したローカルな機能に基づいてこれらのプロンプトを重み付けすることである。
本手法は, 工法の現状と比較して, 性能を著しく向上させる。
論文 参考訳(メタデータ) (2023-07-03T10:14:33Z) - Task-Oriented Multi-Modal Mutual Leaning for Vision-Language Models [52.3032592038514]
ラベル関連画像情報で生成したプロンプトを豊かにするためのクラス対応テキストプロンプトを提案する。
我々は、新しいクラスで4.03%、調和平均で3.19%の改善を11の分類ベンチマークで達成した。
論文 参考訳(メタデータ) (2023-03-30T06:02:40Z) - Zero-shot Image Captioning by Anchor-augmented Vision-Language Space
Alignment [23.072180427273544]
ゼロショット画像キャプションにCLIPを直接利用する場合、文脈のテクスチュラルなモダリティに大きく依存し、視覚情報をほとんど無視する。
これを解決するために、教師なしのクロスモーダル学習を容易にするクロスモーダル言語モデル(CLM)を提案する。
MS COCOとFlickr 30Kの実験は、キャプション品質と計算効率の両方において提案手法の有望な性能を検証した。
論文 参考訳(メタデータ) (2022-11-14T11:12:19Z) - Distinctive Image Captioning via CLIP Guided Group Optimization [13.102953452346297]
本稿では,対象画像を他の類似画像と区別できる特徴的なキャプションを生成することに焦点を当てる。
本稿では,大規模視覚言語事前学習モデルCLIPを用いて,その特徴を定量化する一連の指標を提案する。
対象画像を類似画像群と比較し,グループ埋め込みギャップを最適化することにより,モデルのトレーニングを行う,シンプルで効果的なトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-08-08T16:37:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。