論文の概要: Learning-to-Rank Meets Language: Boosting Language-Driven Ordering
Alignment for Ordinal Classification
- arxiv url: http://arxiv.org/abs/2306.13856v3
- Date: Mon, 23 Oct 2023 12:20:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-24 11:43:34.322371
- Title: Learning-to-Rank Meets Language: Boosting Language-Driven Ordering
Alignment for Ordinal Classification
- Title(参考訳): Learning-to-Rank Meets Language: 正規分類のための言語駆動順序付けの強化
- Authors: Rui Wang, Peipei Li, Huaibo Huang, Chunshui Cao, Ran He, Zhaofeng He
- Abstract要約: 順序分類のための新しい言語駆動順序付け手法を提案する。
事前学習された視覚言語モデルの最近の発展は、人間の言語におけるリッチな順序性を活用するきっかけとなった。
顔の年齢推定,ヒストリカルカラーイメージ(HCI)分類,美的評価を含む3つの日常的分類課題の実験は,その有望な性能を示す。
- 参考スコア(独自算出の注目度): 60.28913031192201
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We present a novel language-driven ordering alignment method for ordinal
classification. The labels in ordinal classification contain additional
ordering relations, making them prone to overfitting when relying solely on
training data. Recent developments in pre-trained vision-language models
inspire us to leverage the rich ordinal priors in human language by converting
the original task into a visionlanguage alignment task. Consequently, we
propose L2RCLIP, which fully utilizes the language priors from two
perspectives. First, we introduce a complementary prompt tuning technique
called RankFormer, designed to enhance the ordering relation of original rank
prompts. It employs token-level attention with residual-style prompt blending
in the word embedding space. Second, to further incorporate language priors, we
revisit the approximate bound optimization of vanilla cross-entropy loss and
restructure it within the cross-modal embedding space. Consequently, we propose
a cross-modal ordinal pairwise loss to refine the CLIP feature space, where
texts and images maintain both semantic alignment and ordering alignment.
Extensive experiments on three ordinal classification tasks, including facial
age estimation, historical color image (HCI) classification, and aesthetic
assessment demonstrate its promising performance. The code is available at
https://github.com/raywang335/L2RCLIP.
- Abstract(参考訳): 順序分類のための新しい言語駆動順序付け手法を提案する。
順序分類のラベルには追加の順序関係が含まれており、トレーニングデータのみに依存する場合、オーバーフィットしやすい。
最近の事前訓練された視覚言語モデルの発展は、人間の言語における豊かな序列を、元のタスクを視覚言語アライメントタスクに変換することによって活用することを促す。
そこで本稿では,L2RCLIPを提案する。
まず,従来のランクプロンプトの順序付け関係を強化するために,RandFormerという補完的なプロンプトチューニング手法を導入する。
トークンレベルの注意と、単語埋め込み空間における残差スタイルのプロンプトブレンドを用いる。
第二に,言語事前化をさらに取り入れるために,バニラクロスエントロピー損失の近似境界最適化を再検討し,それをクロスモーダル埋め込み空間に再構成する。
そこで本研究では,テキストと画像がセマンティックアライメントと秩序アライメントの両方を維持できるCLIP特徴空間を洗練するための,クロスモーダルな順序対ロスを提案する。
顔の年齢推定,ヒストリカルカラーイメージ(HCI)分類,審美評価など,3つの日常的分類課題に対する広範囲な実験は,その有望な性能を示す。
コードはhttps://github.com/raywang335/L2RCLIPで入手できる。
関連論文リスト
- Teach CLIP to Develop a Number Sense for Ordinal Regression [10.046473198947432]
私たちはまず,CLIPの順序回帰の可能性について検討し,そのモデルが様々な順序回帰タスクやシナリオに一般化できると期待する。
残念なことに、vanilla CLIPは、現在のVLMは、数値センスのような構成概念をカプセル化するための、十分に文書化された制限があるため、このタスクで失敗する。
本稿では,VLMの定量的理解を改善するため,NumCLIPと呼ばれるシンプルで効果的な手法を提案する。
論文 参考訳(メタデータ) (2024-08-07T06:26:04Z) - Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - CCPrefix: Counterfactual Contrastive Prefix-Tuning for Many-Class
Classification [57.62886091828512]
多クラス分類のための新しいプレフィックスチューニング手法であるCCPrefixを提案する。
基本的に、ラベル空間における実数対から派生したインスタンス依存の軟式接頭辞は、多クラス分類における言語動詞化を補完するために利用される。
論文 参考訳(メタデータ) (2022-11-11T03:45:59Z) - OrdinalCLIP: Learning Rank Prompts for Language-Guided Ordinal
Regression [94.28253749970534]
我々は、リッチなセマンティックCLIP潜在空間からランクの概念を学ぶことを提案する。
OrdinalCLIPは学習可能なコンテキストトークンと学習可能なランク埋め込みで構成されている。
実験結果から,本パラダイムは一般順序回帰タスクにおける競合性能を達成できることが示唆された。
論文 参考訳(メタデータ) (2022-06-06T03:54:53Z) - SLM: Learning a Discourse Language Representation with Sentence
Unshuffling [53.42814722621715]
談話言語表現を学習するための新しい事前学習目的である文レベル言語モデリングを導入する。
本モデルでは,この特徴により,従来のBERTの性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2020-10-30T13:33:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。