論文の概要: Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport
- arxiv url: http://arxiv.org/abs/2503.15337v1
- Date: Wed, 19 Mar 2025 15:33:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-20 15:23:13.485120
- Title: Recover and Match: Open-Vocabulary Multi-Label Recognition through Knowledge-Constrained Optimal Transport
- Title(参考訳): 検索とマッチング:知識制約された最適輸送によるオープン語彙マルチラベル認識
- Authors: Hao Tan, Zichang Tan, Jun Li, Ajian Liu, Jun Wan, Zhen Lei,
- Abstract要約: 上記の問題に効果的に対処する新しいフレームワークであるRAM(Recover And Match)を紹介します。
RAMは3つの異なるドメインのさまざまなデータセットで最先端のパフォーマンスを達成する。
- 参考スコア(独自算出の注目度): 45.866011150937425
- License:
- Abstract: Identifying multiple novel classes in an image, known as open-vocabulary multi-label recognition, is a challenging task in computer vision. Recent studies explore the transfer of powerful vision-language models such as CLIP. However, these approaches face two critical challenges: (1) The local semantics of CLIP are disrupted due to its global pre-training objectives, resulting in unreliable regional predictions. (2) The matching property between image regions and candidate labels has been neglected, relying instead on naive feature aggregation such as average pooling, which leads to spurious predictions from irrelevant regions. In this paper, we present RAM (Recover And Match), a novel framework that effectively addresses the above issues. To tackle the first problem, we propose Ladder Local Adapter (LLA) to enforce refocusing on local regions, recovering local semantics in a memory-friendly way. For the second issue, we propose Knowledge-Constrained Optimal Transport (KCOT) to suppress meaningless matching to non-GT labels by formulating the task as an optimal transport problem. As a result, RAM achieves state-of-the-art performance on various datasets from three distinct domains, and shows great potential to boost the existing methods. Code: https://github.com/EricTan7/RAM.
- Abstract(参考訳): オープンボキャブラリマルチラベル認識(Open-vocabulary multi-label recognition)として知られる画像内の複数の新しいクラスを特定することは、コンピュータビジョンにおいて難しい課題である。
近年の研究では、CLIPのような強力な視覚言語モデルの転送が検討されている。
しかし、これらのアプローチは、(1)CLIPの局所的意味論は、そのグローバルな事前学習目標によって破壊され、信頼性の低い地域予測をもたらす。
2) 画像領域と候補ラベルのマッチング特性は無視され, 平均プーリングなどの単純な特徴集約に頼っているため, 無関係領域からの急激な予測が導かれる。
本稿では、上記の問題に効果的に対処する新しいフレームワークであるRAM(Recover And Match)を提案する。
最初の問題に対処するため,ローカルなセマンティクスをメモリフレンドリーな方法で復元するLadder Local Adapter (LLA)を提案する。
2つ目の問題として、最適輸送問題としてタスクを定式化し、非GTラベルとの無意味なマッチングを抑えるための知識制約最適輸送(KCOT)を提案する。
結果として、RAMは3つの異なるドメインから様々なデータセットで最先端のパフォーマンスを実現し、既存のメソッドを増強する大きな可能性を示している。
コード:https://github.com/EricTan7/RAM。
関連論文リスト
- AddressCLIP: Empowering Vision-Language Models for City-wide Image Address Localization [57.34659640776723]
そこで我々は,より意味論的に問題を解決するために,AddressCLIPというエンドツーエンドのフレームワークを提案する。
われわれはピッツバーグとサンフランシスコに3つのデータセットを構築した。
論文 参考訳(メタデータ) (2024-07-11T03:18:53Z) - Improving Weakly-Supervised Object Localization Using Adversarial Erasing and Pseudo Label [7.400926717561454]
本稿では,弱教師付きオブジェクトローカライゼーションの枠組みについて検討する。
それは、画像と画像レベルのクラスラベルのみを使用して、オブジェクトクラスとその位置を予測できるニューラルネットワークをトレーニングすることを目的としている。
論文 参考訳(メタデータ) (2024-04-15T06:02:09Z) - Unsupervised Adaptation of Polyp Segmentation Models via Coarse-to-Fine
Self-Supervision [16.027843524655516]
本稿では,アノテートされたソースデータへの依存を解消する,ソースフリードメイン適応(Source-Free Domain Adaptation, SFDA)の実践的問題について検討する。
現在のSFDA法は、ソーストレーニングされたモデルからドメイン知識を抽出することに重点を置いているが、対象ドメインの本質的な構造を無視している。
本稿では,領域レベルと画素レベルの識別表現を粗大な自己超越によって学習する,領域間適応ネットワーク(RPANet)と呼ばれる新しいSFDAフレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-13T02:37:08Z) - Adaptive Face Recognition Using Adversarial Information Network [57.29464116557734]
顔認識モデルは、トレーニングデータがテストデータと異なる場合、しばしば退化する。
本稿では,新たな敵情報ネットワーク(AIN)を提案する。
論文 参考訳(メタデータ) (2023-05-23T02:14:11Z) - CLIP-VG: Self-paced Curriculum Adapting of CLIP for Visual Grounding [86.79903269137971]
擬似ラベルを用いて地域を特定するために、教師なしの視覚的接地法が開発された。
CLIP-VG は,CLIP を擬似言語ラベルに適応させる手法である。
提案手法は,RefCOCO/+/gデータセットにおいて,最先端の教師なし手法よりも有意差がある。
論文 参考訳(メタデータ) (2023-05-15T14:42:02Z) - Semantic-diversity transfer network for generalized zero-shot learning
via inner disagreement based OOD detector [26.89763840782029]
Zero-shot Learning (ZSL) は、見えないクラスからオブジェクトを認識することを目的としている。
既存の多くの作品における知識伝達は、1)広く使われている視覚的特徴がグローバルなものであるが、意味的属性と完全に一致していないという事実から、主に制限されている。
最初の2つの制約に対処するセマンティック・ダイバーシティ・トランスファー・ネットワーク(SetNet)を提案し、1)マルチアテンションアーキテクチャとダイバーシティ・レギュレータを提案し、セマンティック属性とより整合した複数の局所視覚特徴を学習し、2)幾何学的に多様な局所特徴を入力として取り込むプロジェクタアンサンブルを提案する。
論文 参考訳(メタデータ) (2022-03-17T01:31:27Z) - Coarse to Fine: Domain Adaptive Crowd Counting via Adversarial Scoring
Network [58.05473757538834]
本稿では,ドメイン間のギャップを粗い粒度から細かな粒度に埋める新しい逆スコアリングネットワーク (ASNet) を提案する。
3組のマイグレーション実験により,提案手法が最先端のカウント性能を実現することを示す。
論文 参考訳(メタデータ) (2021-07-27T14:47:24Z) - Seeking the Shape of Sound: An Adaptive Framework for Learning
Voice-Face Association [94.7030305679589]
上記の課題を共同で解決するための新しい枠組みを提案します。
我々はモダリティアライメントプロセスにグローバル損失を導入する。
提案メソッドは、複数の設定で以前の方法よりも優れています。
論文 参考訳(メタデータ) (2021-03-12T14:10:48Z) - Find it if You Can: End-to-End Adversarial Erasing for Weakly-Supervised
Semantic Segmentation [6.326017213490535]
本稿では,注目マップの逆消去の新たな定式化を提案する。
提案手法はサリエンシマスクを必要とせず, 注意マップの識別対象領域への拡散を防止するために, 正規化損失を用いる。
パスカルVOCデータセットを用いた実験により, 従来と比べ2.1mIoU, 1.0mIoUのセグメンテーション性能が向上することが示された。
論文 参考訳(メタデータ) (2020-11-09T18:35:35Z) - Contextual-Relation Consistent Domain Adaptation for Semantic
Segmentation [44.19436340246248]
本稿では,革新的局所文脈相関整合ドメイン適応手法を提案する。
グローバルレベルのアライメントにおいて、地域レベルのコンピテンシーを達成することを目的としている。
実験では, 最先端手法と比較して, セグメンテーション性能が優れていることを示した。
論文 参考訳(メタデータ) (2020-07-05T19:00:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。