論文の概要: Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition
- arxiv url: http://arxiv.org/abs/2412.06190v1
- Date: Mon, 09 Dec 2024 04:00:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:54:47.945064
- Title: Category-Adaptive Cross-Modal Semantic Refinement and Transfer for Open-Vocabulary Multi-Label Recognition
- Title(参考訳): 開語彙多ラベル認識のためのカテゴリー適応型クロスモーダルセマンティックリファインメントと転送
- Authors: Haijing Liu, Tao Pu, Hefeng Wu, Keze Wang, Liang Lin,
- Abstract要約: 本稿では,カテゴリ適応型クロスモーダル・セマンティック・リファインメント・アンド・トランスファー(C$2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリ内セマンティックリファインメント(ISR)モジュールと,カテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
OV-MLRベンチマークの実験は、提案されたC$2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
- 参考スコア(独自算出の注目度): 59.203152078315235
- License:
- Abstract: Benefiting from the generalization capability of CLIP, recent vision language pre-training (VLP) models have demonstrated an impressive ability to capture virtually any visual concept in daily images. However, due to the presence of unseen categories in open-vocabulary settings, existing algorithms struggle to effectively capture strong semantic correlations between categories, resulting in sub-optimal performance on the open-vocabulary multi-label recognition (OV-MLR). Furthermore, the substantial variation in the number of discriminative areas across diverse object categories is misaligned with the fixed-number patch matching used in current methods, introducing noisy visual cues that hinder the accurate capture of target semantics. To tackle these challenges, we propose a novel category-adaptive cross-modal semantic refinement and transfer (C$^2$SRT) framework to explore the semantic correlation both within each category and across different categories, in a category-adaptive manner. The proposed framework consists of two complementary modules, i.e., intra-category semantic refinement (ISR) module and inter-category semantic transfer (IST) module. Specifically, the ISR module leverages the cross-modal knowledge of the VLP model to adaptively find a set of local discriminative regions that best represent the semantics of the target category. The IST module adaptively discovers a set of most correlated categories for a target category by utilizing the commonsense capabilities of LLMs to construct a category-adaptive correlation graph and transfers semantic knowledge from the correlated seen categories to unseen ones. Extensive experiments on OV-MLR benchmarks clearly demonstrate that the proposed C$^2$SRT framework outperforms current state-of-the-art algorithms.
- Abstract(参考訳): CLIPの一般化機能に相応しい最近の視覚言語事前訓練(VLP)モデルは、日々のイメージにおける事実上の視覚概念をキャプチャする印象的な能力を示している。
しかし、オープン語彙設定に見知らぬカテゴリが存在するため、既存のアルゴリズムはカテゴリ間の強い意味的相関を効果的に捉えるのに苦労し、オープン語彙マルチラベル認識(OV-MLR)に準最適性能をもたらす。
さらに、様々な対象カテゴリにおける識別領域数の実質的な変動は、現在の手法で用いられる固定数パッチマッチングと不一致であり、ターゲットセマンティクスの正確な捕捉を妨げるノイズの多い視覚的手がかりが導入された。
これらの課題に対処するために,カテゴリ適応型クロスモーダルセマンティックリファインメントおよびトランスファー(C$^2$SRT)フレームワークを提案する。
提案するフレームワークは,2つの相補的モジュール,すなわち,カテゴリー内セマンティックリファインメント(ISR)モジュールとカテゴリ間セマンティックトランスファー(IST)モジュールから構成される。
具体的には、ISRモジュールはVLPモデルのクロスモーダルな知識を活用し、ターゲットカテゴリのセマンティクスを最もよく表す局所的な識別領域の集合を適応的に見つける。
ISTモジュールは, LLMのコモンセンス機能を利用して, カテゴリ適応相関グラフを構築し, 相関したカテゴリから未知のカテゴリへ意味的知識を移すことにより, 対象カテゴリの最も関連性の高いカテゴリの集合を適応的に発見する。
OV-MLRベンチマークの大規模な実験は、提案されたC$^2$SRTフレームワークが現在の最先端アルゴリズムより優れていることを明らかに示している。
関連論文リスト
- Category-Prompt Refined Feature Learning for Long-Tailed Multi-Label Image Classification [8.139529179222844]
Category-Prompt Refined Feature Learning (CPRFL) は長尺多ラベル画像分類の新しい手法である。
CPRFLは、事前訓練されたCLIPの埋め込みからカテゴリプロンプトを初期化し、カテゴリ固有の視覚表現を分離する。
2つのLCMLCベンチマークにおいて,本手法の有効性を検証し,本手法がベースラインよりも優れていることを示す。
論文 参考訳(メタデータ) (2024-08-15T12:51:57Z) - Dual-Modal Prompting for Sketch-Based Image Retrieval [76.12076969949062]
本稿では、適応的なプロンプト戦略を設計したデュアルモーダルCLIP(DP-CLIP)ネットワークを提案する。
ターゲットカテゴリとテキストカテゴリラベル内に一連の画像を用いて,カテゴリ適応型プロンプトトークンとチャネルスケールをそれぞれ構成する。
我々のDP-CLIPは、Sketchyデータセット上のAcc.@1において、最先端の微細ゼロショット法を7.3%向上させる。
論文 参考訳(メタデータ) (2024-04-29T13:43:49Z) - Balanced Classification: A Unified Framework for Long-Tailed Object
Detection [74.94216414011326]
従来の検出器は、分類バイアスによる長期データを扱う際の性能劣化に悩まされる。
本稿では,カテゴリ分布の格差に起因する不平等の適応的是正を可能にする,BAlanced CLassification (BACL) と呼ばれる統一フレームワークを提案する。
BACLは、さまざまなバックボーンとアーキテクチャを持つさまざまなデータセット間で、一貫してパフォーマンス改善を実現している。
論文 参考訳(メタデータ) (2023-08-04T09:11:07Z) - Cluster-to-adapt: Few Shot Domain Adaptation for Semantic Segmentation
across Disjoint Labels [80.05697343811893]
クラスタ・トゥ・アダプティブ(Cluster-to-Adapt, C2A)は、セグメンテーションデータセット間のドメイン適応のための、計算的に効率的なクラスタリングベースのアプローチである。
変換された特徴空間に強制されるそのようなクラスタリングの目的は、ソースドメインとターゲットドメインのカテゴリを自動的に選択するのに役立つことを示す。
論文 参考訳(メタデータ) (2022-08-04T17:57:52Z) - Semantic Representation and Dependency Learning for Multi-Label Image
Recognition [76.52120002993728]
本稿では,各カテゴリのカテゴリ固有のセマンティック表現を学習するための,新しい,効果的なセマンティック表現と依存性学習(SRDL)フレームワークを提案する。
具体的には,カテゴリー別注意領域(CAR)モジュールを設計し,チャネル/空間的注意行列を生成してモデルを導出する。
また、カテゴリ間のセマンティック依存を暗黙的に学習するオブジェクト消去(OE)モジュールを設計し、セマンティック認識領域を消去する。
論文 参考訳(メタデータ) (2022-04-08T00:55:15Z) - Towards Novel Target Discovery Through Open-Set Domain Adaptation [73.81537683043206]
オープンソースドメイン適応(OSDA)は、ターゲットドメインが外部のソースドメインでは観察できない新しいカテゴリのサンプルを含むと考えている。
対象領域に見られるカテゴリを正確に識別し,未知のカテゴリのセマンティクス特性を効果的に回復するための新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-05-06T04:22:29Z) - Unsupervised Domain Adaptation in Semantic Segmentation via Orthogonal
and Clustered Embeddings [25.137859989323537]
本稿では,機能クラスタリング手法に基づく効果的なUnsupervised Domain Adaptation(UDA)戦略を提案する。
識別的クラスタリング性能を高めるために,2つの新しい学習目標を導入する。
論文 参考訳(メタデータ) (2020-11-25T10:06:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。