論文の概要: LMPT: Prompt Tuning with Class-Specific Embedding Loss for Long-tailed
Multi-Label Visual Recognition
- arxiv url: http://arxiv.org/abs/2305.04536v1
- Date: Mon, 8 May 2023 08:14:46 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-09 15:08:29.410385
- Title: LMPT: Prompt Tuning with Class-Specific Embedding Loss for Long-tailed
Multi-Label Visual Recognition
- Title(参考訳): LMPT:ロングテールマルチラベル視覚認識のためのクラス別埋め込み損失を用いたプロンプトチューニング
- Authors: Peng Xia, Di Xu, Lie Ju, Ming Hu, Jun Chen, Zongyuan Ge
- Abstract要約: ラベル共起と不均衡なデータ分布のため、長い尾を持つ多ラベル視覚認識は極めて難しい課題である。
本稿では,クラス固有の埋め込み損失(LMPT)を即時チューニングするLTMLの統一フレームワークを提案する。
LMPTは、テキストと画像のモダリティデータを組み合わせてカテゴリ間のセマンティックな特徴相互作用をキャプチャし、頭と尾の両方のパフォーマンスを同期的に改善する。
- 参考スコア(独自算出の注目度): 15.62763301946124
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: Long-tailed multi-label visual recognition (LTML) task is a highly
challenging task due to the label co-occurrence and imbalanced data
distribution. In this work, we propose a unified framework for LTML, namely
prompt tuning with class-specific embedding loss (LMPT), capturing the semantic
feature interactions between categories by combining text and image modality
data and improving the performance synchronously on both head and tail classes.
Specifically, LMPT introduces the embedding loss function with class-aware soft
margin and re-weighting to learn class-specific contexts with the benefit of
textual descriptions (captions), which could help establish semantic
relationships between classes, especially between the head and tail classes.
Furthermore, taking into account the class imbalance, the distribution-balanced
loss is adopted as the classification loss function to further improve the
performance on the tail classes without compromising head classes. Extensive
experiments are conducted on VOC-LT and COCO-LT datasets, which demonstrates
that the proposed method significantly surpasses the previous state-of-the-art
methods and zero-shot CLIP in LTML. Our codes are fully available at
\url{https://github.com/richard-peng-xia/LMPT}.
- Abstract(参考訳): ラベル共起と不均衡なデータ分布のため,Long-tailed Multi-label visual recognition (LTML) タスクは極めて困難なタスクである。
本研究は,クラス固有の埋め込み損失(LMPT)を迅速にチューニングし,テキストと画像のモダリティデータを組み合わせてカテゴリ間の意味的特徴の相互作用を捉え,頭と尾の両方のパフォーマンスを同期的に改善するLTML統合フレームワークを提案する。
特に、lmptは、クラス認識のソフトマージンを持つ埋め込み損失関数を導入し、クラス固有のコンテキストを、特に頭と尾のクラス間の意味的関係を確立するのに役立つテキスト記述(captions)の恩恵を受けて学習する。
さらに、クラス不均衡を考慮した分類損失関数として分布バランス損失を採用し、ヘッドクラスを損なうことなくテールクラスの性能をさらに向上させる。
VOC-LTとCOCO-LTのデータセットを用いて大規模な実験を行い、提案手法が従来の最先端手法やLTMLのゼロショットCLIPを大きく上回ることを示した。
我々のコードは \url{https://github.com/richard-peng-xia/LMPT} で完全に利用可能です。
関連論文リスト
- SLCA++: Unleash the Power of Sequential Fine-tuning for Continual Learning with Pre-training [68.7896349660824]
本稿では,Seq FTのレンズからの進行オーバーフィッティング問題を詳細に解析する。
過度に高速な表現学習と偏りのある分類層がこの問題を構成することを考慮し、先進的なSlow Learner with Alignment(S++)フレームワークを導入する。
提案手法は,バックボーンパラメータの学習率を選択的に減少させるスローラーナーと,ポストホック方式で不規則な分類層を整列させるアライメントを含む。
論文 参考訳(メタデータ) (2024-08-15T17:50:07Z) - Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification [8.139529179222844]
Category-Prompt Refined Feature Learning (CPRFL) は長尺多ラベル画像分類の新しい手法である。
CPRFLは、事前訓練されたCLIPの埋め込みからカテゴリプロンプトを初期化し、カテゴリ固有の視覚表現を分離する。
2つのLCMLCベンチマークにおいて,本手法の有効性を検証し,本手法がベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-15T12:51:57Z) - SFC: Shared Feature Calibration in Weakly Supervised Semantic
Segmentation [28.846513129022803]
画像レベルの教師付きセマンティックセグメンテーションはアノテーションコストの低さから注目されている。
既存の手法は主にクラスマッピング(CAM)に頼り、セマンティックセグメンテーションモデルをトレーニングするための擬似ラベルを得る。
本研究は,学習データにおける長い尾の分布が,ヘッドクラスとテールクラス間の共有特徴により,ヘッドクラスとアンダークラスの重みを過剰に活性化し,テールクラスとアンダークラスの重み付けによって計算されたCAMを生じさせることを示す最初の試みである。
論文 参考訳(メタデータ) (2024-01-22T06:43:13Z) - Long-Tailed Classification Based on Coarse-Grained Leading Forest and Multi-Center Loss [20.10399273585125]
Long-tailed (LT) 分類は、現実世界では避けられない問題であり、困難な問題である。
不変特徴学習を用いて多粒度分類モデルを構築することを目的とした,新しい長鎖分類フレームワークを提案する。
提案手法は既存のベンチマークである ImageNet-GLT と MSCOCO-GLT の両方で最先端の性能を実現する。
論文 参考訳(メタデータ) (2023-10-12T10:51:23Z) - Learning in Imperfect Environment: Multi-Label Classification with
Long-Tailed Distribution and Partial Labels [53.68653940062605]
新しいタスク, 部分ラベリングとLong-Tailed Multi-Label Classification (PLT-MLC) を導入する。
その結果,ほとんどのLT-MLCとPL-MLCは劣化MLCの解決に失敗していることがわかった。
textbfCOrrection $rightarrow$ textbfModificattextbfIon $rightarrow$ balantextbfCe。
論文 参考訳(メタデータ) (2023-04-20T20:05:08Z) - Distinguishability Calibration to In-Context Learning [31.375797763897104]
そこで本研究では, PLM符号化埋め込みを新しい距離空間にマッピングすることで, 埋め込みの識別性を保証する手法を提案する。
また、双曲的埋め込みの利点を生かして、粒度の細かいクラス関連トークン埋め込み間の階層的関係を捉える。
論文 参考訳(メタデータ) (2023-02-13T09:15:00Z) - Class-Incremental Lifelong Learning in Multi-Label Classification [3.711485819097916]
本稿では、連続したマルチラベル分類データストリームにオンラインのクラスインクリメンタル分類器を構築する、Lifelong Multi-Label (LML)分類について検討する。
そこで本研究では,AGCN (Augmented Graph Convolutional Network) を提案する。
論文 参考訳(メタデータ) (2022-07-16T05:14:07Z) - CSS-LM: A Contrastive Framework for Semi-supervised Fine-tuning of
Pre-trained Language Models [59.49705076369856]
プレトレーニング言語モデル(PLM)の微調整フェーズを改善するための新しいフレームワークを提案する。
大規模未ラベルコーパスから,タスクに対するドメインレベルおよびクラスレベルの意味的関連性に応じて,正および負のインスタンスを検索する。
次に、検索したラベル付きおよびオリジナルラベル付きの両方のインスタンスに対して、対照的な半教師付き学習を行い、PLMが重要なタスク関連セマンティックな特徴をキャプチャするのを助ける。
論文 参考訳(メタデータ) (2021-02-07T09:27:26Z) - Revisiting LSTM Networks for Semi-Supervised Text Classification via
Mixed Objective Function [106.69643619725652]
我々は,単純なBiLSTMモデルであっても,クロスエントロピー損失でトレーニングした場合に,競争的な結果が得られるようなトレーニング戦略を開発する。
いくつかのベンチマークデータセット上で,テキスト分類タスクの最先端結果について報告する。
論文 参考訳(メタデータ) (2020-09-08T21:55:22Z) - Feature Space Augmentation for Long-Tailed Data [74.65615132238291]
実世界のデータは、各クラスの周波数が典型的に異なるため、長い尾の分布に従うことが多い。
データ再サンプリングと拡張に関するクラスバランス損失と高度な手法は、データの不均衡問題を解決するためのベストプラクティスのひとつです。
提案手法は,多種多様なサンプルを持つクラスから学習した特徴量を用いて,特徴空間における表現不足のクラスを増大させることによって,長鎖問題に対処する新しい手法を提案する。
論文 参考訳(メタデータ) (2020-08-09T06:38:00Z) - Boosting Few-Shot Learning With Adaptive Margin Loss [109.03665126222619]
本稿では,数ショット学習問題に対するメートル法に基づくメタラーニング手法の一般化能力を改善するための適応的マージン原理を提案する。
大規模な実験により,提案手法は,現在のメートル法に基づくメタラーニング手法の性能を向上させることができることが示された。
論文 参考訳(メタデータ) (2020-05-28T07:58:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。