論文の概要: Dual-View Alignment Learning with Hierarchical-Prompt for Class-Imbalance Multi-Label Classification
- arxiv url: http://arxiv.org/abs/2509.17747v1
- Date: Mon, 22 Sep 2025 13:11:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.402792
- Title: Dual-View Alignment Learning with Hierarchical-Prompt for Class-Imbalance Multi-Label Classification
- Title(参考訳): 階層型プロンプトを用いた2視点アライメント学習によるクラスバランス型マルチラベル分類
- Authors: Sheng Huang, Jiexuan Yan, Beiyan Liu, Bo Liu, Richang Hong,
- Abstract要約: 実世界のデータセットは、複数のカテゴリにまたがってクラス不均衡を示すことが多く、長い尾の分布と少数ショットのシナリオを示す。
これは、データ不均衡とマルチオブジェクト認識が大きな障害となるCI-MLIC(Class-Im Balanced Multi-Label Image Classification)タスクにおいて特に難しい。
本稿では,階層型 Prompt (HP-DVAL) を用いたデュアルビューアライメント学習(Dual-View Alignment Learning) という手法を提案する。
- 参考スコア(独自算出の注目度): 45.76234309840256
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Real-world datasets often exhibit class imbalance across multiple categories, manifesting as long-tailed distributions and few-shot scenarios. This is especially challenging in Class-Imbalanced Multi-Label Image Classification (CI-MLIC) tasks, where data imbalance and multi-object recognition present significant obstacles. To address these challenges, we propose a novel method termed Dual-View Alignment Learning with Hierarchical Prompt (HP-DVAL), which leverages multi-modal knowledge from vision-language pretrained (VLP) models to mitigate the class-imbalance problem in multi-label settings. Specifically, HP-DVAL employs dual-view alignment learning to transfer the powerful feature representation capabilities from VLP models by extracting complementary features for accurate image-text alignment. To better adapt VLP models for CI-MLIC tasks, we introduce a hierarchical prompt-tuning strategy that utilizes global and local prompts to learn task-specific and context-related prior knowledge. Additionally, we design a semantic consistency loss during prompt tuning to prevent learned prompts from deviating from general knowledge embedded in VLP models. The effectiveness of our approach is validated on two CI-MLIC benchmarks: MS-COCO and VOC2007. Extensive experimental results demonstrate the superiority of our method over SOTA approaches, achieving mAP improvements of 10.0\% and 5.2\% on the long-tailed multi-label image classification task, and 6.8\% and 2.9\% on the multi-label few-shot image classification task.
- Abstract(参考訳): 実世界のデータセットは、複数のカテゴリにまたがってクラス不均衡を示すことが多く、長い尾の分布と少数ショットのシナリオを示す。
これは、データ不均衡とマルチオブジェクト認識が大きな障害となるCI-MLIC(Class-Im Balanced Multi-Label Image Classification)タスクにおいて特に難しい。
これらの課題に対処するために、視覚言語事前学習(VLP)モデルからのマルチモーダル知識を活用し、マルチラベル設定におけるクラス不均衡問題を緩和するDual-View Alignment Learning with Hierarchical Prompt (HP-DVAL)という新しい手法を提案する。
具体的には、HP-DVALはデュアルビューアライメント学習を用いて、画像テキストアライメントのための補完的特徴を抽出することにより、VLPモデルから強力な特徴表現能力を伝達する。
CI-MLICタスクにVLPモデルを適用するために、グローバルおよびローカルプロンプトを利用した階層的なプロンプトチューニング戦略を導入し、タスク固有およびコンテキスト関連事前知識を学習する。
さらに,VLPモデルに埋め込まれた一般的な知識から学習のプロンプトが逸脱することを防止するために,プロンプトチューニング中の意味的一貫性の損失を設計する。
提案手法の有効性を,MS-COCOとVOC2007の2つのCI-MLICベンチマークで検証した。
広範に実験した結果,SOTA手法よりも優れた手法が示され,複数ラベル画像分類タスクでは10.0\%,5.2\%,複数ラベル画像分類タスクでは6.8\%,2.9\%のmAP改善が達成された。
関連論文リスト
- Improving Multi-label Recognition using Class Co-Occurrence Probabilities [7.062238472483738]
マルチラベル認識(MLR)は、画像内の複数のオブジェクトを識別する。
最近の研究は、タスクのための大規模なテキスト画像データセットに基づいて訓練された視覚言語モデル(VLM)からの情報を活用している。
オブジェクトペアの共起情報を組み込んだ独立分類器の拡張フレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-24T20:33:25Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - LAMM: Label Alignment for Multi-Modal Prompt Learning [17.478967970736115]
我々は、下流データセットのカテゴリ埋め込みをエンドツーエンドのトレーニングによって調整できる、textbfLAMMという革新的なラベルアライメント手法を提案する。
本手法は,既存のマルチモーダル・プロンプト学習モデルの性能を大幅に向上させる。
提案手法は,他の素早いチューニング手法と比較して,連続学習の優位性を示す。
論文 参考訳(メタデータ) (2023-12-13T15:29:52Z) - APoLLo: Unified Adapter and Prompt Learning for Vision Language Models [58.9772868980283]
本稿では,視覚言語モデルに対する適応学習とプロンプト学習を組み合わせた統合マルチモーダルアプローチであるAPoLLoを提案する。
APoLLoは10種類の画像認識データセットに対して、MaPLe(SOTA)よりも6.03%向上している。
論文 参考訳(メタデータ) (2023-12-04T01:42:09Z) - Boosting Multi-Label Image Classification with Complementary Parallel
Self-Distillation [15.518137695660668]
マルチラベル画像分類手法は通常、ラベル相関を利用して優れた性能を実現する。
共起(co-occurrence)のような相関を強調することは、ターゲット自体の差別的な特徴を見落とし、モデルオーバーフィットにつながる可能性がある。
本研究では,MLICモデルの強化を目的としたParallel Self-Distillation (PSD) という汎用フレームワークを提案する。
論文 参考訳(メタデータ) (2022-05-23T01:28:38Z) - Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。
これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。
そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文 参考訳(メタデータ) (2021-09-24T07:20:13Z) - Multitask Learning for Class-Imbalanced Discourse Classification [74.41900374452472]
マルチタスクアプローチは,現在のベンチマークで7%のマイクロf1コアを改善できることを示す。
また,NLPにおける資源不足問題に対処するための追加手法の比較検討を行った。
論文 参考訳(メタデータ) (2021-01-02T07:13:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。