論文の概要: [CLS] is Not Enough: Multi-Label Recognition via Patch-Level Inference and Adaptive Aggregation
- arxiv url: http://arxiv.org/abs/2605.25821v1
- Date: Mon, 25 May 2026 13:19:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-26 19:50:20.131345
- Title: [CLS] is Not Enough: Multi-Label Recognition via Patch-Level Inference and Adaptive Aggregation
- Title(参考訳): CLSは十分ではない:パッチレベル推論と適応アグリゲーションによるマルチラベル認識
- Authors: Akang Wang, Xili Deng, Zhanxuan Hu, Yi Zhao, Yonghang Tai, Huafeng Li,
- Abstract要約: PIAAは、アダプティブアグリゲーション(Adaptive Aggregation)によって、パッチレベルの推論として予測を定式化する。
パッチレベルのスコアを最終的なマルチラベル予測に集約するアダプティブアグリゲーションモジュールを導入する。
実験の結果,提案手法は最小限の余剰計算で強い改善を達成できることがわかった。
- 参考スコア(独自算出の注目度): 20.637119409165418
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision-Language Models such as CLIP exhibit strong zero-shot recognition capability by aligning images with textual concepts, yet they often underperform on multi-label recognition where multiple objects co-exist. A key bottleneck is that the [CLS] token, as a single global visual representation, is insufficient to faithfully encode diverse targets with varying scales, contexts, and co-occurrence patterns. To address this limitation, we present a new multi-label image recognition framework, termed PIAA, which formulates prediction as Patch-level Inference followed by Adaptive Aggregation. Specifically, we first enhance patch-wise predictions from two complementary perspectives: (i) mitigating semantic entanglement in the visual encoder to obtain more discriminative patch representations, and (ii) learning an unsupervised visual classifier to narrow the vision-language modality gap. We then introduce an adaptive aggregation module that consolidates patch-level scores into the final multi-label prediction. Notably, the entire pipeline is fully training-free, requiring no gradient updates or parameter fine-tuning. Experiments show that our method achieves strong improvements with minimal extra computation, exceeding a 6% mAP gain on the challenging NUS-WIDE benchmark over representative baselines. Code is available at https://github.com/akang-wang/PIAA.
- Abstract(参考訳): CLIPのような視覚言語モデルは、画像とテキストの概念を整列することで強力なゼロショット認識能力を示すが、複数のオブジェクトが共存するマルチラベル認識では性能が劣ることが多い。
重要なボトルネックは、[CLS]トークンが単一のグローバルな視覚的表現として、さまざまなスケール、コンテキスト、共起パターンで多様なターゲットを忠実にエンコードするには不十分であることです。
この制限に対処するため、我々はPIAAと呼ばれる新しいマルチラベル画像認識フレームワークを提案し、このフレームワークはパッチレベルの推論とアダプティブ・アグリゲーション(Adaptive Aggregation)という予測を定式化する。
具体的には、まず2つの相補的な視点からパッチワイズ予測を強化する。
一 視覚エンコーダにおける意味的絡みを緩和し、より識別性の高いパッチ表現を得ること。
二 教師なし視覚分類器を学習し、視覚・言語間のモダリティギャップを狭めること。
次に、パッチレベルのスコアを最終的なマルチラベル予測に集約するアダプティブアグリゲーションモジュールを導入する。
特に、パイプライン全体が完全にトレーニング不要で、勾配更新やパラメータの微調整は必要ありません。
実験の結果,提案手法は最小限の余剰計算で強い改善を達成し,代表ベースラインに対するNAS-WIDEベンチマークにおいて6%のmAPゲインを達成できた。
コードはhttps://github.com/akang-wang/PIAA.comで公開されている。
関連論文リスト
- Not All Tokens See Equally: Perception-Grounded Policy Optimization for Large Vision-Language Models [38.47027398567909]
Perception-Grounded Policy Optimization (PGPO)は、トークンレベルでのメリットを動的に再評価する、新しいきめ細かなクレジット割り当てフレームワークである。
PGPOは,言語的先行音からの勾配雑音を抑えつつ,視覚的に依存するトークンの学習信号を積極的に増幅することを示す。
理論的および実証的な分析は、PGPOが勾配の分散を効果的に減少させ、訓練の崩壊を防ぎ、頑健で知覚的なマルチモーダル推論のための強力な正則化剤として機能することを確認する。
論文 参考訳(メタデータ) (2026-04-02T09:53:20Z) - Test-Time Conditioning with Representation-Aligned Visual Features [9.262325724962485]
Representation-Aligned Guidance (REPA-G)を導入する。
我々は,事前学習した特徴抽出器から抽出した条件付き表現に対して,デノナイズ処理を行う。
提案手法は, 単一パッチによるきめ細かいテクスチャマッチングから, 広義の意味指導まで, 複数スケールで多目的制御を行う。
論文 参考訳(メタデータ) (2026-02-03T17:15:03Z) - Unleashing the Power of Vision-Language Models for Long-Tailed Multi-Label Visual Recognition [55.189113121465816]
本稿では,長い尾を持つ多ラベル視覚認識のための新しい相関適応プロンプトネットワーク(CAPNET)を提案する。
CAPNETはCLIPのテキストエンコーダからの相関を明示的にモデル化する。
テスト時間アンサンブルによる一般化を改善し、視覚・テクスチャのモダリティを実現する。
論文 参考訳(メタデータ) (2025-11-25T18:57:28Z) - Semantic-Aligned Learning with Collaborative Refinement for Unsupervised VI-ReID [82.12123628480371]
教師なしの人物再識別(USL-VI-ReID)は、モデル学習のための人間のアノテーションを使わずに、同じ人物の歩行者像を異なるモードでマッチングすることを目指している。
従来の手法では、ラベルアソシエーションアルゴリズムを用いて異質な画像の擬似ラベルを統一し、グローバルな特徴学習のためのコントラスト学習フレームワークを設計していた。
本稿では,各モダリティによって強調される特定のきめ細かいパターンを対象とするSALCR(Semantic-Aligned Learning with Collaborative Refinement)フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-27T13:58:12Z) - LPOSS: Label Propagation Over Patches and Pixels for Open-vocabulary Semantic Segmentation [16.021683473678515]
視覚・言語モデル(VLM)を用いたセマンティックセグメンテーションのためのトレーニング不要手法を提案する。
提案手法はラベル伝搬によるVLMのパッチごとの予測を高速化する。
我々の手法はLPOSS+と呼ばれ、ウィンドウベースの処理を回避し、画像全体にわたって推論を行う。
論文 参考訳(メタデータ) (2025-03-25T15:47:13Z) - Subobject-level Image Tokenization [60.80949852899857]
パッチベースの画像トークン化は、視覚世界の形態を無視する。
サブワードトークン化にヒントを得て,サブオブジェクトレベルの適応トークンセグメンテーションを導入する。
サブオブジェクトのトークン化は、より少ない視覚トークンを使用しながら、より高速な収束とより優れた一般化を可能にすることを示す。
論文 参考訳(メタデータ) (2024-02-22T06:47:44Z) - Noise-Tolerant Few-Shot Unsupervised Adapter for Vision-Language Models [8.59772105902647]
NtUAは、雑音耐性のない教師なし適応器で、非競合なターゲットサンプルをほとんど持たない効果的なターゲットモデルの学習を可能にする。
NtUAは、視覚的特徴を定式化したキー値キャッシュとして機能し、少数の未ラベルのターゲットサンプルの擬似ラベルをキー値ペアとして予測する。
NtUAは、広く採用されている複数のベンチマークにおいて、一貫して優れたパフォーマンスを達成する。
論文 参考訳(メタデータ) (2023-09-26T13:35:31Z) - UIA-ViT: Unsupervised Inconsistency-Aware Method based on Vision
Transformer for Face Forgery Detection [52.91782218300844]
そこで我々は、UIA-ViTと呼ばれるビジョン変換器に基づく教師なし不整合認識手法を提案する。
自己注意機構により、パッチ埋め込み間の注意マップは自然に一貫性関係を表現し、一貫性表現学習に適した視覚変換器となる。
論文 参考訳(メタデータ) (2022-10-23T15:24:47Z) - Cluster-to-Conquer: A Framework for End-to-End Multi-Instance Learning
for Whole Slide Image Classification [7.876654642325896]
本稿では,WSI (Whole Slide Images) からのパッチを$k$-groupsにクラスタリングし,各グループから$k'$のパッチをサンプルし,スライドレベルの予測に適応的な注意機構を用いるエンドツーエンドフレームワークを提案する。
このフレームワークは、スライドレベルのクロスエントロピー、パッチレベルのクロスエントロピー、KLの分散損失に最適化されている。
論文 参考訳(メタデータ) (2021-03-19T04:24:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。