論文の概要: OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression
- arxiv url: http://arxiv.org/abs/2206.02338v1
- Date: Mon, 6 Jun 2022 03:54:53 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-07 16:16:29.014605
- Title: OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression
- Title(参考訳): OrdinalCLIP: 言語ガイドによる正規回帰のためのランクプロンプト
- Authors: Wanhua Li, Xiaoke Huang, Zheng Zhu, Yansong Tang, Xiu Li, Jiwen Lu,
Jie Zhou
- Abstract要約: 我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
- 参考スコア(独自算出の注目度): 94.28253749970534
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a language-powered paradigm for ordinal regression.
Existing methods usually treat each rank as a category and employ a set of
weights to learn these concepts. These methods are easy to overfit and usually
attain unsatisfactory performance as the learned concepts are mainly derived
from the training set. Recent large pre-trained vision-language models like
CLIP have shown impressive performance on various visual tasks. In this paper,
we propose to learn the rank concepts from the rich semantic CLIP latent space.
Specifically, we reformulate this task as an image-language matching problem
with a contrastive objective, which regards labels as text and obtains a
language prototype from a text encoder for each rank. While prompt engineering
for CLIP is extremely time-consuming, we propose OrdinalCLIP, a differentiable
prompting method for adapting CLIP for ordinal regression. OrdinalCLIP consists
of learnable context tokens and learnable rank embeddings; The learnable rank
embeddings are constructed by explicitly modeling numerical continuity,
resulting in well-ordered, compact language prototypes in the CLIP space. Once
learned, we can only save the language prototypes and discard the huge language
model, resulting in zero additional computational overhead compared with the
linear head counterpart. Experimental results show that our paradigm achieves
competitive performance in general ordinal regression tasks, and gains
improvements in few-shot and distribution shift settings for age estimation.
- Abstract(参考訳): 本稿では,順序回帰のための言語駆動パラダイムを提案する。
既存の方法は通常、各階級をカテゴリーとして扱い、これらの概念を学ぶために一連の重みを用いる。
これらの手法は、過度に適合しやすく、学習された概念は主にトレーニングセットから導かれるため、通常満足のいくパフォーマンスを得る。
最近のCLIPのような訓練済みの視覚言語モデルでは、様々な視覚的タスクにおいて印象的なパフォーマンスを示している。
本稿では,リッチなセマンティックCLIP潜在空間からランク概念を学習することを提案する。
具体的には、ラベルをテキストとみなし、各ランクのテキストエンコーダから言語プロトタイプを取得する、対比目的のイメージ言語マッチング問題として、このタスクを再構成する。
CLIP のプロンプトエンジニアリングは非常に時間がかかるが,CLIP を順序回帰に適用するための微分可能なプロンプト手法である OrdinalCLIP を提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
一度学習すると、言語プロトタイプを保存し、巨大な言語モデルを破棄するだけで、線形ヘッドと比較して計算オーバーヘッドがゼロになる。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成し,年齢推定のための数ショットおよび分布シフト設定の改善を図っている。
関連論文リスト
- Teach CLIP to Develop a Number Sense for Ordinal Regression [10.046473198947432]
私たちはまず,CLIPの順序回帰の可能性について検討し,そのモデルが様々な順序回帰タスクやシナリオに一般化できると期待する。
残念なことに、vanilla CLIPは、現在のVLMは、数値センスのような構成概念をカプセル化するための、十分に文書化された制限があるため、このタスクで失敗する。
本稿では,VLMの定量的理解を改善するため,NumCLIPと呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T06:26:04Z) - A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Learning-to-Rank Meets Language: Boosting Language-Driven Ordering
Alignment for Ordinal Classification [60.28913031192201]
順序分類のための新しい言語駆動順序付け手法を提案する。
事前学習された視覚言語モデルの最近の発展は、人間の言語におけるリッチな順序性を活用するきっかけとなった。
顔の年齢推定,ヒストリカルカラーイメージ(HCI)分類,美的評価を含む3つの日常的分類課題の実験は,その有望な性能を示す。
論文 参考訳(メタデータ) (2023-06-24T04:11:31Z) - AttriCLIP: A Non-Incremental Learner for Incremental Knowledge Learning [53.32576252950481]
連続学習は、モデルが逐次到着したデータから段階的に知識を学習できるようにすることを目的としている。
本稿では,新しいクラスやタスクの知識を段階的に抽出する,AttriCLIPという非インクリメンタル学習手法を提案する。
論文 参考訳(メタデータ) (2023-05-19T07:39:17Z) - Global Knowledge Calibration for Fast Open-Vocabulary Segmentation [124.74256749281625]
本稿では,各学習カテゴリの同義語群を生成するテキスト多様化戦略を提案する。
また,CLIPの汎用的な知識を維持するために,テキスト誘導型知識蒸留法を用いている。
提案手法は, 各種データセットに対して頑健な一般化性能を実現する。
論文 参考訳(メタデータ) (2023-03-16T09:51:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。