論文の概要: Manipulating the Label Space for In-Context Classification
- arxiv url: http://arxiv.org/abs/2312.00351v1
- Date: Fri, 1 Dec 2023 04:57:20 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 15:41:26.593228
- Title: Manipulating the Label Space for In-Context Classification
- Title(参考訳): 文脈内分類のためのラベル空間の操作
- Authors: Haokun Chen, Xu Yang, Yuhang Huang, Zihan Wu, Jing Wang, Xin Geng
- Abstract要約: 多様なデータセット上での文脈内分類性能を改善するための2つの手法を提案する。
4ショット設定で74.70%の精度を76.21%に引き上げました。
CUB-200では、1ショットの精度が48.86%から69.05%に上昇し、CLIPよりも12.15%高い。
- 参考スコア(独自算出の注目度): 41.48485210835583
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: After pre-training by generating the next word conditional on previous words,
the Language Model (LM) acquires the ability of In-Context Learning (ICL) that
can learn a new task conditional on the context of the given in-context
examples (ICEs). Similarly, visually-conditioned Language Modelling is also
used to train Vision-Language Models (VLMs) with ICL ability. However, such
VLMs typically exhibit weaker classification abilities compared to contrastive
learning-based models like CLIP, since the Language Modelling objective does
not directly contrast whether an object is paired with a text. To improve the
ICL of classification, using more ICEs to provide more knowledge is a
straightforward way. However, this may largely increase the selection time, and
more importantly, the inclusion of additional in-context images tends to extend
the length of the in-context sequence beyond the processing capacity of a VLM.
To alleviate these limitations, we propose to manipulate the label space of
each ICE to increase its knowledge density, allowing for fewer ICEs to convey
as much information as a larger set would. Specifically, we propose two
strategies which are Label Distribution Enhancement and Visual Descriptions
Enhancement to improve In-context classification performance on diverse
datasets, including the classic ImageNet and more fine-grained datasets like
CUB-200. Specifically, using our approach on ImageNet, we increase accuracy
from 74.70\% in a 4-shot setting to 76.21\% with just 2 shots. surpassing CLIP
by 0.67\%. On CUB-200, our method raises 1-shot accuracy from 48.86\% to
69.05\%, 12.15\% higher than CLIP. The code is given in
https://anonymous.4open.science/r/MLS_ICC.
- Abstract(参考訳): 言語モデル(LM)は、先行した単語に基づいて次の単語条件を生成して事前学習した後、与えられた文脈内例(ICE)のコンテキストに基づいて新しいタスク条件を学習するインコンテキスト学習(ICL)能力を取得する。
同様に、視覚条件付き言語モデリングは、視覚言語モデル(VLM)をICL能力で訓練するためにも用いられる。
しかしながら、言語モデリングの目的は、オブジェクトがテキストとペアリングされているかどうかを直接的に対比しないため、これらのVLMはCLIPのような対照的な学習ベースのモデルと比較して、典型的には弱い分類能力を示す。
分類のICLを改善するために、より多くのICEを使ってより多くの知識を提供するのは簡単な方法です。
しかし、これは選択時間を大幅に増加させる可能性があり、さらに重要なことに、追加のin-contextイメージは、vlmの処理能力を超えて、in-contextシーケンスの長さを延ばす傾向がある。
これらの制約を緩和するため,我々は,各氷のラベル空間を操作し,その知識密度を増加させることを提案し,より少ない氷でより多くの情報を伝達できるようにする。
具体的には,従来のImageNetや,CUB-200のようなよりきめ細かいデータセットを含む,多様なデータセット上でのコンテキスト内分類性能を改善するために,ラベル分布向上とビジュアル記述向上の2つの戦略を提案する。
具体的には、ImageNetのアプローチを用いて、4ショット設定で74.70\%から2ショットで76.21\%に精度を向上する。
CLIP を 0.67 % 上回る。
CUB-200では,CLIPよりも1ショット精度が48.86\%から69.05\%,12.15\%に向上した。
コードはhttps://anonymous.4open.science/r/MLS_ICCで与えられる。
関連論文リスト
- Evolving Interpretable Visual Classifiers with Large Language Models [34.4903887876357]
CLIPのようなマルチモーダル事前訓練モデルは、オープン語彙の柔軟性と高性能のため、ゼロショット分類に人気がある。
画像とクラスラベルの類似点を計算する視覚言語モデルは、ほとんどブラックボックスであり、解釈可能性の制限、バイアスのリスク、書き下がらない新しい視覚概念の発見ができない。
本稿では,視覚認識のための属性の解釈可能かつ差別的集合を検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:09:53Z) - Embracing Language Inclusivity and Diversity in CLIP through Continual
Language Learning [58.92843729869586]
視覚言語事前学習モデル (VL-PTMs) は近年、先進的なマルチモーダル研究を行っているが、英語のようないくつかの言語での習得は、より広いコミュニティにおける適用性を制限している。
我々は,連続言語学習(CLL)によってVL-PTMの言語能力を拡張することを提案する。
我々は,MSCOCOおよびXM3600データセットに基づく36言語をカバーするCLLベンチマークを構築し,多言語画像テキスト検索性能を評価する。
論文 参考訳(メタデータ) (2024-01-30T17:14:05Z) - Large Language Models are Good Prompt Learners for Low-Shot Image Classification [12.053713356249695]
本稿では,CLIPテキストエンコーダの適応的なプロンプトを生成するLLaMP,Large Language ModelsをPrompt学習者として提案する。
実験により、LLaMPは他の最先端の素早い学習法と比較して、ゼロショットの一般化と少数ショットの画像分類の両方においてより良い性能が得られることが示された。
論文 参考訳(メタデータ) (2023-12-07T06:43:34Z) - SILC: Improving Vision Language Pretraining with Self-Distillation [113.50400246862056]
本稿では,視覚言語事前学習のための新しいフレームワークであるSILCを紹介する。
SILCは、局所-言語対応学習を自己蒸留で簡単に追加することで、画像テキストのコントラスト学習を改善する。
指数移動平均(EMA)教師モデルから局所像の特徴を抽出することにより,検出やセグメンテーションといった密集した予測タスクにおけるモデル性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2023-10-20T08:44:47Z) - Improving CLIP Training with Language Rewrites [57.935517901210225]
言語書き換えによるCLIPトレーニングを強化するために,Language augmented CLIP (LaCLIP)を導入した。
また,LaCLIPは,学習中に計算やメモリオーバーヘッドを伴わずに転送性能を大幅に向上することを示した。
ImageNetゼロショット精度では、LaCLIPはCC12MでCLIPを8.2%、LAION-400Mで2.4%上回る。
論文 参考訳(メタデータ) (2023-05-31T17:59:04Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Is a Caption Worth a Thousand Images? A Controlled Study for
Representation Learning [88.5382122413913]
本研究では,従来の画像のみの手法よりも伝達可能な表現を持つ視覚モデルが得られるかを検討した。
画像のみの手法は、より多くの画像データでトレーニングされた場合でも、CLIPの転送性能と一致しないことがわかった。
この結果から,CLIPが既存の事前学習データセットに存在する言語情報を活用できるように,シンプルな処方薬を考案した。
論文 参考訳(メタデータ) (2022-07-15T17:50:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。