論文の概要: Teach CLIP to Develop a Number Sense for Ordinal Regression
- arxiv url: http://arxiv.org/abs/2408.03574v1
- Date: Wed, 7 Aug 2024 06:26:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-08 13:43:46.292166
- Title: Teach CLIP to Develop a Number Sense for Ordinal Regression
- Title(参考訳): 日常回帰のための数字センスを開発するためのTeach CLIP
- Authors: Yao Du, Qiang Zhai, Weihang Dai, Xiaomeng Li,
- Abstract要約: 私たちはまず,CLIPの順序回帰の可能性について検討し,そのモデルが様々な順序回帰タスクやシナリオに一般化できると期待する。
残念なことに、vanilla CLIPは、現在のVLMは、数値センスのような構成概念をカプセル化するための、十分に文書化された制限があるため、このタスクで失敗する。
本稿では,VLMの定量的理解を改善するため,NumCLIPと呼ばれるシンプルで効果的な手法を提案する。
- 参考スコア(独自算出の注目度): 10.046473198947432
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Ordinal regression is a fundamental problem within the field of computer vision, with customised well-trained models on specific tasks. While pre-trained vision-language models (VLMs) have exhibited impressive performance on various vision tasks, their potential for ordinal regression has received less exploration. In this study, we first investigate CLIP's potential for ordinal regression, from which we expect the model could generalise to different ordinal regression tasks and scenarios. Unfortunately, vanilla CLIP fails on this task, since current VLMs have a well-documented limitation of encapsulating compositional concepts such as number sense. We propose a simple yet effective method called NumCLIP to improve the quantitative understanding of VLMs. We disassemble the exact image to number-specific text matching problem into coarse classification and fine prediction stages. We discretize and phrase each numerical bin with common language concept to better leverage the available pre-trained alignment in CLIP. To consider the inherent continuous property of ordinal regression, we propose a novel fine-grained cross-modal ranking-based regularisation loss specifically designed to keep both semantic and ordinal alignment in CLIP's feature space. Experimental results on three general ordinal regression tasks demonstrate the effectiveness of NumCLIP, with 10% and 3.83% accuracy improvement on historical image dating and image aesthetics assessment task, respectively. Code is publicly available at https://github.com/xmed-lab/NumCLIP.
- Abstract(参考訳): 正規回帰はコンピュータビジョンの分野における根本的問題であり、特定のタスクに関するカスタマイズされたよく訓練されたモデルである。
事前学習された視覚言語モデル(VLM)は、様々な視覚タスクにおいて印象的な性能を示したが、順序回帰の可能性は、より少ない探索を受けた。
本研究では,CLIPの順序回帰の可能性について検討し,そのモデルが様々な順序回帰タスクやシナリオに一般化されることを期待する。
残念なことに、vanilla CLIPは、現在のVLMは、数値センスのような構成概念をカプセル化するための、十分に文書化された制限があるため、このタスクで失敗する。
本稿では,VLMの定量的理解を改善するため,NumCLIPと呼ばれるシンプルで効果的な手法を提案する。
正確な画像と数字固有のテキストマッチング問題を粗い分類と微妙な予測段階に分解する。
私たちは、CLIPで利用可能な事前学習アライメントをよりよく活用するために、各数値ビンを共通言語の概念で識別し、言い換える。
順序回帰の本質的な連続性を考慮するため,CLIPの特徴空間における意味的・順序的アライメントの両面に特化して,厳密なクロスモーダルランキングに基づく正規化損失を提案する。
3つの一般順序回帰タスクの実験結果から,NumCLIPの有効性が示され,歴史画像の年代測定と画像美学評価の精度が10%,3.83%向上した。
コードはhttps://github.com/xmed-lab/NumCLIPで公開されている。
関連論文リスト
- A Hard-to-Beat Baseline for Training-free CLIP-based Adaptation [121.0693322732454]
対照的に、CLIP(Contrastive Language- Image Pretraining)はその目覚ましいゼロショット能力で人気を集めている。
近年の研究では、下流タスクにおけるCLIPの性能を高めるための効率的な微調整手法の開発に焦点が当てられている。
従来のアルゴリズムであるガウス判別分析(GDA)を再検討し,CLIPの下流分類に適用する。
論文 参考訳(メタデータ) (2024-02-06T15:45:27Z) - Deep Imbalanced Regression via Hierarchical Classification Adjustment [50.19438850112964]
コンピュータビジョンにおける回帰タスクは、しばしば、対象空間をクラスに定量化することで分類される。
トレーニングサンプルの大多数は目標値の先頭にあるが、少数のサンプルは通常より広い尾幅に分布する。
不均衡回帰タスクを解くために階層型分類器を構築することを提案する。
不均衡回帰のための新しい階層型分類調整(HCA)は,3つのタスクにおいて優れた結果を示す。
論文 参考訳(メタデータ) (2023-10-26T04:54:39Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Learning-to-Rank Meets Language: Boosting Language-Driven Ordering
Alignment for Ordinal Classification [60.28913031192201]
順序分類のための新しい言語駆動順序付け手法を提案する。
事前学習された視覚言語モデルの最近の発展は、人間の言語におけるリッチな順序性を活用するきっかけとなった。
顔の年齢推定,ヒストリカルカラーイメージ(HCI)分類,美的評価を含む3つの日常的分類課題の実験は,その有望な性能を示す。
論文 参考訳(メタデータ) (2023-06-24T04:11:31Z) - CLIPood: Generalizing CLIP to Out-of-Distributions [73.86353105017076]
対照的に、CLIP(Language-image Pre-training)モデルでは、印象的なゼロショット能力を示しているが、下流タスクにおけるCLIPのさらなる適応は、OODのパフォーマンスを好ましくない劣化させる。
ドメインシフトとオープンクラスの両方が見えないテストデータ上で発生する可能性があるOOD状況にCLIPモデルを適用するための微調整手法であるCLIPoodを提案する。
さまざまなOODシナリオによるさまざまなデータセットの実験は、CLIPoodが既存の一般化テクニックを一貫して上回っていることを示している。
論文 参考訳(メタデータ) (2023-02-02T04:27:54Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - Class-incremental Learning with Rectified Feature-Graph Preservation [24.098892115785066]
本論文の中心的なテーマは,逐次的な段階を経る新しいクラスを学習することである。
旧知識保存のための重み付きユークリッド正規化を提案する。
新しいクラスを効果的に学習するために、クラス分離を増やすためにバイナリクロスエントロピーでどのように機能するかを示す。
論文 参考訳(メタデータ) (2020-12-15T07:26:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。