論文の概要: Multi-Class Textual-Inversion Secretly Yields a Semantic-Agnostic Classifier
- arxiv url: http://arxiv.org/abs/2410.22317v1
- Date: Tue, 29 Oct 2024 17:55:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:40:15.820749
- Title: Multi-Class Textual-Inversion Secretly Yields a Semantic-Agnostic Classifier
- Title(参考訳): 意味非依存型分類器のマルチクラステクスチュアル・インバージョンが秘かに得られる
- Authors: Kai Wang, Fei Yang, Bogdan Raducanu, Joost van de Weijer,
- Abstract要約: テキスト・ツー・イメージ(T2I)パーソナライズ手法は,新しいトークンを学習することで,概念の見当たらないものにT2Iモデルを適応することを目的としている。
新たな概念トークンは,各カテゴリを一つの概念として扱うことにより,生成能力と分類能力の両方を有することを示す。
トークン更新プロセスの識別正則化項を含むマルチクラステキストインバージョンを提案する。
- 参考スコア(独自算出の注目度): 20.95472997379712
- License:
- Abstract: With the advent of large pre-trained vision-language models such as CLIP, prompt learning methods aim to enhance the transferability of the CLIP model. They learn the prompt given few samples from the downstream task given the specific class names as prior knowledge, which we term as semantic-aware classification. However, in many realistic scenarios, we only have access to few samples and knowledge of the class names (e.g., when considering instances of classes). This challenging scenario represents the semantic-agnostic discriminative case. Text-to-Image (T2I) personalization methods aim to adapt T2I models to unseen concepts by learning new tokens and endowing these tokens with the capability of generating the learned concepts. These methods do not require knowledge of class names as a semantic-aware prior. Therefore, in this paper, we first explore Textual Inversion and reveal that the new concept tokens possess both generation and classification capabilities by regarding each category as a single concept. However, learning classifiers from single-concept textual inversion is limited since the learned tokens are suboptimal for the discriminative tasks. To mitigate this issue, we propose Multi-Class textual inversion, which includes a discriminative regularization term for the token updating process. Using this technique, our method MC-TI achieves stronger Semantic-Agnostic Classification while preserving the generation capability of these modifier tokens given only few samples per category. In the experiments, we extensively evaluate MC-TI on 12 datasets covering various scenarios, which demonstrates that MC-TI achieves superior results in terms of both classification and generation outcomes.
- Abstract(参考訳): CLIPのような大規模訓練済みの視覚言語モデルの出現により、迅速な学習手法はCLIPモデルの伝達可能性を高めることを目的としている。
彼らは、特定のクラス名を事前知識として与えた下流タスクから、いくつかのサンプルを与えられたプロンプトを学習し、それを意味認識分類(semantic-aware classification)と呼ぶ。
しかし、多くの現実的なシナリオでは、わずかなサンプルとクラス名(例えば、クラスのインスタンスを考慮するとき)の知識しかアクセスできません。
この挑戦的なシナリオは、意味論的識別のケースを表している。
テキスト・ツー・イメージ(T2I)パーソナライズ手法は、新しいトークンを学習し、これらのトークンに学習された概念を生成する能力を与えることによって、T2Iモデルを未知の概念に適応させることを目的としている。
これらのメソッドは、事前にセマンティック・アウェアとしてクラス名の知識を必要としない。
そこで本研究では,テキスト・インバージョンを最初に検討し,各カテゴリをひとつの概念として扱うことにより,新しい概念トークンが生成能力と分類能力の両方を持っていることを明らかにした。
しかし、学習トークンは識別タスクに最適であるため、単一概念のテキストインバージョンからの学習分類器は限られている。
この問題を軽減するために,トークン更新プロセスの識別正則化項を含むマルチクラステキスト変換を提案する。
この手法を用いてMC-TIは,各カテゴリに少数のサンプルしか与えない修飾子トークンの生成能力を保ちながら,より強力なセマンティック・アグノスティック分類を実現する。
実験では, MC-TIの分類結果と生成結果の両方において, MC-TIが優れた結果が得られることを示す12のデータセットについて, MC-TIを広範囲に評価した。
関連論文リスト
- Evolving Interpretable Visual Classifiers with Large Language Models [34.4903887876357]
CLIPのようなマルチモーダル事前訓練モデルは、オープン語彙の柔軟性と高性能のため、ゼロショット分類に人気がある。
画像とクラスラベルの類似点を計算する視覚言語モデルは、ほとんどブラックボックスであり、解釈可能性の制限、バイアスのリスク、書き下がらない新しい視覚概念の発見ができない。
本稿では,視覚認識のための属性の解釈可能かつ差別的集合を検出する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-04-15T17:09:53Z) - Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - Unlocking the Multi-modal Potential of CLIP for Generalized Category Discovery [50.564146730579424]
テキスト埋め込み合成器(TES)を提案する。
提案手法は,CLIPのマルチモーダルポテンシャルを解放し,すべてのGCDベンチマークにおいて,ベースライン手法よりも大きなマージンで性能を向上する。
論文 参考訳(メタデータ) (2024-03-15T02:40:13Z) - Data-free Multi-label Image Recognition via LLM-powered Prompt Tuning [23.671999163027284]
本稿では,学習データを持たないマルチラベル画像認識のための新しいフレームワークを提案する。
事前学習されたLarge Language Modelの知識を使用して、CLIPのような事前学習されたVision-Language Modelをマルチラベル分類に適応させるプロンプトを学ぶ。
本フレームワークは,新しいカテゴリー認識のための複数の事前学習モデル間の相乗効果を探索する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-02T13:43:32Z) - Boosting Prompt-Based Self-Training With Mapping-Free Automatic
Verbalizer for Multi-Class Classification [3.647905567437244]
マッピング不要な自動言語モデリングツール (MAV) という,新しい効率的な動詞体系を導入する。
MAVは、予測から利用可能な全ての情報に乗じて、分類に必要な単語の特徴を自動的に抽出する訓練可能な発声器として機能する。
5つの多クラス分類データセットの実験結果は、MAVの優れた自己学習効果を示している。
論文 参考訳(メタデータ) (2023-12-08T11:43:00Z) - XAI-CLASS: Explanation-Enhanced Text Classification with Extremely Weak
Supervision [6.406111099707549]
XAI-CLASSは、説明強化弱教師付きテキスト分類法である。
単語の正当性予測を補助タスクとして組み込む。
XAI-CLASSは、他の弱い教師付きテキスト分類法よりも大幅に優れている。
論文 参考訳(メタデータ) (2023-10-31T23:24:22Z) - TagCLIP: Improving Discrimination Ability of Open-Vocabulary Semantic Segmentation [53.974228542090046]
対照的に、CLIP(Contrastive Language- Image Pre-Training)は、最近、ピクセルレベルのゼロショット学習タスクにおいて大きな可能性を示している。
CLIPのテキストとパッチの埋め込みを利用してセマンティックマスクを生成する既存のアプローチは、しばしば目に見えないクラスから入力ピクセルを誤識別する。
この問題に対処するためにTagCLIP(Trusty-aware guideed CLIP)を提案する。
論文 参考訳(メタデータ) (2023-04-15T12:52:23Z) - Task-Specific Embeddings for Ante-Hoc Explainable Text Classification [6.671252951387647]
テキストのタスク固有の埋め込みを学習する学習目標を提案する。
提案する目的は,同一のクラスラベルを共有するすべてのテキストが近接しているように埋め込みを学習することである。
本研究は, 総合的な分類精度において, アンテホックな説明可能性と漸進的な学習の利点が無コストで得られることを示す広範囲な実験である。
論文 参考訳(メタデータ) (2022-11-30T19:56:25Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - Multi-Modal Few-Shot Object Detection with Meta-Learning-Based
Cross-Modal Prompting [77.69172089359606]
本稿では,マルチモーダルな複数ショットオブジェクト検出(FSOD)について,少数ショット視覚例とクラスセマンティック情報の両方を用いて検討する。
我々のアプローチは、(メトリックベース)メタラーニングとプロンプトベースラーニングの高レベルな概念的類似性によって動機付けられている。
提案するマルチモーダルFSODモデルを,複数の複数ショットオブジェクト検出ベンチマークで総合的に評価し,有望な結果を得た。
論文 参考訳(メタデータ) (2022-04-16T16:45:06Z) - Dual Prototypical Contrastive Learning for Few-shot Semantic
Segmentation [55.339405417090084]
本稿では,FSSタスクに適合する2つの特徴的コントラスト学習手法を提案する。
第一の考え方は、プロトタイプの特徴空間におけるクラス内距離を減少させながら、クラス間距離を増やすことで、プロトタイプをより差別的にすることである。
提案手法は,PASCAL-5iおよびCOCO-20iデータセット上で,最先端のFSS手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-11-09T08:14:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。