Fugu-MT 論文翻訳(概要): Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification

論文の概要: Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification

arxiv url: http://arxiv.org/abs/2408.08125v1
Date: Thu, 15 Aug 2024 12:51:57 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-16 13:56:12.267844
Title: Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification
Title（参考訳）: 長周期マルチラベル画像分類のためのカテゴリプロンプト精細特徴学習
Authors: Jiexuan Yan, Sheng Huang, Nankun Mu, Luwen Huangfu, Bo Liu,
Abstract要約: Category-Prompt Refined Feature Learning (CPRFL) は長尺多ラベル画像分類の新しい手法である。 CPRFLは、事前訓練されたCLIPの埋め込みからカテゴリプロンプトを初期化し、カテゴリ固有の視覚表現を分離する。 2つのLCMLCベンチマークにおいて,本手法の有効性を検証し,本手法がベースラインよりも優れていることを示す。
参考スコア（独自算出の注目度）: 8.139529179222844
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Real-world data consistently exhibits a long-tailed distribution, often spanning multiple categories. This complexity underscores the challenge of content comprehension, particularly in scenarios requiring Long-Tailed Multi-Label image Classification (LTMLC). In such contexts, imbalanced data distribution and multi-object recognition pose significant hurdles. To address this issue, we propose a novel and effective approach for LTMLC, termed Category-Prompt Refined Feature Learning (CPRFL), utilizing semantic correlations between different categories and decoupling category-specific visual representations for each category. Specifically, CPRFL initializes category-prompts from the pretrained CLIP's embeddings and decouples category-specific visual representations through interaction with visual features, thereby facilitating the establishment of semantic correlations between the head and tail classes. To mitigate the visual-semantic domain bias, we design a progressive Dual-Path Back-Propagation mechanism to refine the prompts by progressively incorporating context-related visual information into prompts. Simultaneously, the refinement process facilitates the progressive purification of the category-specific visual representations under the guidance of the refined prompts. Furthermore, taking into account the negative-positive sample imbalance, we adopt the Asymmetric Loss as our optimization objective to suppress negative samples across all classes and potentially enhance the head-to-tail recognition performance. We validate the effectiveness of our method on two LTMLC benchmarks and extensive experiments demonstrate the superiority of our work over baselines. The code is available at https://github.com/jiexuanyan/CPRFL.
Abstract（参考訳）: 現実世界のデータは常に長い尾の分布を示し、しばしば複数のカテゴリにまたがる。この複雑さは、特にLong-Tailed Multi-Label Image Classification (LTMLC)を必要とするシナリオにおいて、コンテンツ理解の課題を浮き彫りにする。このような状況下では、不均衡なデータ分布と多目的認識が大きなハードルとなる。この問題に対処するために,カテゴリー別カテゴリ間の意味的相関とカテゴリ別カテゴリ別視覚表現の疎結合を利用して,カテゴリー別プロンプト精錬特徴学習(CPRFL)と呼ばれるLTMLCの新規かつ効果的なアプローチを提案する。具体的には、CPRFLは、事前訓練されたCLIPの埋め込みからカテゴリプロンプトを初期化し、視覚的特徴との相互作用を通じてカテゴリ固有の視覚表現を分離することにより、頭と尾のクラス間の意味的相関の確立を容易にする。視覚的セマンティックな領域バイアスを軽減するために、進行的なデュアルパスバックプロパゲーション機構を設計し、文脈関連視覚情報をプロンプトに段階的に組み込むことによりプロンプトを洗練させる。同時に、精細化プロセスは、精細化プロンプトの指導の下で、カテゴリ固有の視覚表現の段階的浄化を促進する。さらに, 負の正のサンプル不均衡を考慮に入れ, 非対称損失を最適化の対象とし, 全クラスにまたがる負のサンプルの抑制と, ヘッド・ツー・テール認識性能の向上を図った。 2つのLCMLCベンチマークにおいて,本手法の有効性を検証し,本手法がベースラインよりも優れていることを示す。コードはhttps://github.com/jiexuanyan/CPRFLで公開されている。

関連論文リスト

Training-Free Class Purification for Open-Vocabulary Semantic Segmentation [72.87707878910896]
FreeCPは、セマンティックセグメンテーションのためのトレーニング不要のクラス浄化フレームワークである。我々は,FreeCPの有効性を検証するため,8つのベンチマークで実験を行った。その結果、プラグイン・アンド・プレイモジュールであるFreeCPは、他のOVSSメソッドと組み合わせることでセグメンテーション性能を大幅に向上することが示された。
論文参考訳（メタデータ） (2025-08-01T11:55:12Z)
SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文参考訳（メタデータ） (2025-04-24T09:31:08Z)
Semantic-guided Representation Learning for Multi-Label Recognition [13.046479112800608]
マルチラベル認識(MLR)では、画像内の各データインスタンスに複数のラベルを割り当てる。近年のビジョンと言語事前学習法は、ゼロショットMLRタスクの処理において大きな進歩を遂げている。本研究では,セマンティック誘導型表現学習手法(SigRL)を導入し,モデルが効果的な視覚的およびテキスト的表現を学習できるようにする。
論文参考訳（メタデータ） (2025-04-04T08:15:08Z)
Learning Semantic-Aware Representation in Visual-Language Models for Multi-Label Recognition with Partial Labels [19.740929527669483]
部分ラベル付きマルチラベル認識(MLR-PL)はコンピュータビジョンにおける実用的な課題である。セマンティックデカップリングモジュールとカテゴリ固有のプロンプト最適化手法をCLIPベースのフレームワークで導入する。提案手法は,CLIPベースのベースライン方式と比較して,情報と異なるカテゴリを効果的に分離し,優れた性能を実現する。
論文参考訳（メタデータ） (2024-12-14T14:31:36Z)
Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition [59.203152078315235]
本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。 OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
論文参考訳（メタデータ） (2024-12-09T04:00:18Z)
Envisioning Class Entity Reasoning by Large Language Models for Few-shot Learning [13.68867780184022]
少ないショット学習は、限られた数のビジュアルサンプルを使用して新しい概念を認識することを目的としている。我々のフレームワークは,Large Language Models(LLMs)から抽出した抽象クラスセマンティクスと具体的なクラスエンティティの両方を組み込んでいる。難易度の高いワンショット設定では、ResNet-12のバックボーンを利用して、第2の競争相手に比べて平均1.95%の改善を実現しています。
論文参考訳（メタデータ） (2024-08-22T15:10:20Z)
Dual-Modal Prompting for Sketch-Based Image Retrieval [76.12076969949062]
本稿では、適応的なプロンプト戦略を設計したデュアルモーダルCLIP(DP-CLIP)ネットワークを提案する。ターゲットカテゴリとテキストカテゴリラベル内に一連の画像を用いて,カテゴリ適応型プロンプトトークンとチャネルスケールをそれぞれ構成する。我々のDP-CLIPは、Sketchyデータセット上のAcc.@1において、最先端の微細ゼロショット法を7.3%向上させる。
論文参考訳（メタデータ） (2024-04-29T13:43:49Z)
Generalizable Whole Slide Image Classification with Fine-Grained Visual-Semantic Interaction [17.989559761931435]
本稿では,WSI分類のための"Fine-fine Visual-Semantic Interaction"フレームワークを提案する。局所的な視覚パターンと微細な病理的意味論の相互作用を活用することにより、モデルの一般化性を高めるように設計されている。本手法は, TCGA肺がんデータセットにおいて, 高い一般化性, 強い転移性を示す。
論文参考訳（メタデータ） (2024-02-29T16:29:53Z)
Balanced Classification: A Unified Framework for Long-Tailed Object Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。 BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文参考訳（メタデータ） (2023-08-04T09:11:07Z)
LMPT: Prompt Tuning with Class-Specific Embedding Loss for Long-tailed Multi-Label Visual Recognition [12.62835357920401]
本稿では,クラス固有の埋め込み損失(LMPT)を即時チューニングするLTMLの統一フレームワークを提案する。 LTMLにおける従来の最先端手法とゼロショットCLIPを大きく上回っている。
論文参考訳（メタデータ） (2023-05-08T08:14:46Z)
Not All Instances Contribute Equally: Instance-adaptive Class Representation Learning for Few-Shot Visual Recognition [94.04041301504567]
少数ショットの視覚認識は、いくつかのラベル付きインスタンスから新しい視覚概念を認識することを指す。本稿では,数ショットの視覚認識を実現するために,インスタンス適応型クラス表現学習ネットワーク(ICRL-Net)と呼ばれる新しいメトリックベースのメタラーニングフレームワークを提案する。
論文参考訳（メタデータ） (2022-09-07T10:00:18Z)
Semantic Representation and Dependency Learning for Multi-Label Image Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文参考訳（メタデータ） (2022-04-08T00:55:15Z)
CAD: Co-Adapting Discriminative Features for Improved Few-Shot Classification [11.894289991529496]
少数のラベル付きサンプルを与えられた未確認のクラスに適応できるモデルを学ぶことを目的としている。最近のアプローチでは、特徴抽出器を事前訓練し、その後、エピソードなメタラーニングのための微調整を行う。本研究は, 複数ショットの分類において, 横断的および再重み付き識別機能を実現するための戦略を提案する。
論文参考訳（メタデータ） (2022-03-25T06:14:51Z)
Learning Debiased and Disentangled Representations for Semantic Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文参考訳（メタデータ） (2021-10-31T16:15:09Z)
Dense Contrastive Visual-Linguistic Pretraining [53.61233531733243]
画像とテキストを共同で表現するマルチモーダル表現学習手法が提案されている。これらの手法は,大規模マルチモーダル事前学習から高レベルな意味情報を取得することにより,優れた性能を実現する。そこで本稿では,非バイアスのDense Contrastive Visual-Linguistic Pretrainingを提案する。
論文参考訳（メタデータ） (2021-09-24T07:20:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。