論文の概要: A Hidden Stumbling Block in Generalized Category Discovery: Distracted Attention
- arxiv url: http://arxiv.org/abs/2507.14315v1
- Date: Fri, 18 Jul 2025 18:39:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-22 20:51:31.835579
- Title: A Hidden Stumbling Block in Generalized Category Discovery: Distracted Attention
- Title(参考訳): 一般カテゴリー発見の隠れたブロック:注意をそらす
- Authors: Qiyu Xu, Zhanxuan Hu, Yu Duan, Ercheng Pei, Yonghang Tai,
- Abstract要約: Generalized Category Discovery (GCD)は、既知のカテゴリと未知のカテゴリの両方からラベルのないデータを分類することを目的としている。
モデルは、画像のキーオブジェクトだけでなく、タスクに依存しない背景領域にもフォーカスする傾向があります。
本研究では,非形式的トークンを抽出することにより,モデルの焦点を絞る適応的機構である注意集中(AF)を提案する。
- 参考スコア(独自算出の注目度): 3.491141037235349
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generalized Category Discovery (GCD) aims to classify unlabeled data from both known and unknown categories by leveraging knowledge from labeled known categories. While existing methods have made notable progress, they often overlook a hidden stumbling block in GCD: distracted attention. Specifically, when processing unlabeled data, models tend to focus not only on key objects in the image but also on task-irrelevant background regions, leading to suboptimal feature extraction. To remove this stumbling block, we propose Attention Focusing (AF), an adaptive mechanism designed to sharpen the model's focus by pruning non-informative tokens. AF consists of two simple yet effective components: Token Importance Measurement (TIME) and Token Adaptive Pruning (TAP), working in a cascade. TIME quantifies token importance across multiple scales, while TAP prunes non-informative tokens by utilizing the multi-scale importance scores provided by TIME. AF is a lightweight, plug-and-play module that integrates seamlessly into existing GCD methods with minimal computational overhead. When incorporated into one prominent GCD method, SimGCD, AF achieves up to 15.4% performance improvement over the baseline with minimal computational overhead. The implementation code is provided in https://github.com/Afleve/AFGCD.
- Abstract(参考訳): Generalized Category Discovery (GCD) は、ラベル付き既知のカテゴリの知識を活用することにより、既知のカテゴリと未知のカテゴリの両方からラベル付きデータを分類することを目的としている。
既存の手法は顕著な進歩を遂げてきたが、GCDの隠れたスタブリングブロックを見落とし、注意をそらした。
具体的には、ラベル付けされていないデータを処理する場合、モデルは画像のキーオブジェクトだけでなく、タスク非関連な背景領域にも焦点を合わせ、最適でない特徴抽出に繋がる。
そこで本研究では,非形式的トークンをプルーニングすることで,モデルの焦点を絞る適応機構であるAttention Focusing (AF)を提案する。
AFは、TIME(Token Importance Measurement)とTAP(Token Adaptive Pruning)の2つのシンプルで効果的なコンポーネントで構成され、カスケードで動作する。
TIMEは複数のスケールでトークンの重要性を定量化し、TAPはTIMEが提供するマルチスケールの重要度スコアを利用して非情報化トークンをプリキュアする。
AFは軽量なプラグアンドプレイモジュールで、計算オーバーヘッドを最小限に抑え、既存のGCDメソッドとシームレスに統合する。
1つの著名なGCDメソッドであるSimGCDに組み込むと、AFは最小の計算オーバーヘッドでベースラインよりも最大15.4%の性能向上を達成する。
実装コードはhttps://github.com/Afleve/AFGCDで提供されている。
関連論文リスト
- VLAD-BuFF: Burst-aware Fast Feature Aggregation for Visual Place Recognition [23.173085268845384]
本稿では,VLAD-BuFFを提案する。これは,エンドツーエンドのVPRトレーニングにおいてバースト認識機能を学ぶための,自己相似機能割引機構である。
我々は、VLAD-BuFFが新しい技術状態を設定する9つの公開データセットに対して、我々の手法をベンチマークする。
提案手法は,12倍の局所的特徴量でも高いリコールを維持できるため,リコールを伴わずに高速な特徴集約が可能となる。
論文 参考訳(メタデータ) (2024-09-28T09:44:08Z) - Agglomerative Token Clustering [61.0477253613511]
Agglomerative Token Clustering (ATC)は、新しいトークンマージ手法である。
ATCはすべてのタスクで最先端のパフォーマンスを達成でき、既定の最先端をオフ・ザ・シェルフで適用した場合と同等に動作させることができる。
論文 参考訳(メタデータ) (2024-09-18T12:37:58Z) - SCAPE: A Simple and Strong Category-Agnostic Pose Estimator [6.705257644513057]
Category-Agnostic Pose Estimation (CAPE) は、任意のカテゴリのオブジェクトにキーポイントをローカライズすることを目的としている。
本稿では,グローバルな意味情報をキーポイントに注入するグローバルなキーポイント機能パーセプタと,キーポイント間のノード間相関を強化するキーポイントアテンションリファクタという2つのキーモジュールを紹介する。
SCAPEは1ショットと5ショット設定で2.2と1.3PCKで先行技術より優れ、推論速度が速く、モデルキャパシティも軽い。
論文 参考訳(メタデータ) (2024-07-18T13:02:57Z) - Open-Vocabulary Animal Keypoint Detection with Semantic-feature Matching [74.75284453828017]
Open-Vocabulary Keypoint Detection (OVKD)タスクは、任意の種類のキーポイントを特定するためにテキストプロンプトを使用するように設計されている。
セマンティック・フェールマッチング(KDSM)を用いた開語彙キーポイント検出(Open-Vocabulary Keypoint Detection)という新しいフレームワークを開発した。
このフレームワークは視覚と言語モデルを組み合わせて、言語機能とローカルキーポイント視覚機能との相互作用を作成する。
論文 参考訳(メタデータ) (2023-10-08T07:42:41Z) - PDiscoNet: Semantically consistent part discovery for fine-grained
recognition [62.12602920807109]
画像レベルのクラスラベルのみを用いて,対象部品の発見を推奨する先行情報とともにPDiscoNetを提案する。
CUB,CelebA,PartImageNet で得られた結果から,提案手法は従来手法よりもかなり優れた部分発見性能が得られることがわかった。
論文 参考訳(メタデータ) (2023-09-06T17:19:29Z) - Less is More: Focus Attention for Efficient DETR [23.81282650112188]
本研究では,計算効率とモデル精度のトレードオフを改善するために,より情報性の高いトークンに着目したFocus-DETRを提案する。
具体的には、トークンスコアリング機構を含むデュアルアテンションでエンコーダを再構築する。
同じ条件下での最先端のスパースDETRのような検出器と比較すると、Focus-DETRはCOCO上で50.4AP(+2.2)を達成しながら、同等の複雑さを得る。
論文 参考訳(メタデータ) (2023-07-24T08:39:11Z) - Focus for Free in Density-Based Counting [56.961229110268036]
利用可能なポイントアノテーションを再利用して、カウント性能を向上させる2つの方法を紹介します。
1つ目は、ポイントアノテーションを利用して、入力画像と密度画像の両方で隠蔽されたオブジェクトをシミュレートするカウント固有の拡張である。
第2の方法である前景蒸留は点アノテーションから前景マスクを生成し,黒色背景を持つ画像上で補助的ネットワークを訓練する。
論文 参考訳(メタデータ) (2023-06-08T11:54:37Z) - Weakly Supervised Semantic Segmentation using Out-of-Distribution Data [50.45689349004041]
弱教師付きセマンティックセグメンテーション(WSSS)法は、しばしばピクセルレベルのローカライゼーションマップ上に構築される。
本稿では,背景と背景を区別する新たな情報源を提案する。
論文 参考訳(メタデータ) (2022-03-08T05:33:35Z) - Channel DropBlock: An Improved Regularization Method for Fine-Grained
Visual Classification [58.07257910065007]
既存のアプローチは主に、識別的部分を見つけるための注意機構や、高度にパラメータ化された特徴を弱教師付きで抽出する特徴符号化アプローチを導入することでこの問題に対処している。
本研究では,CDB(Channel DropBlock)と呼ばれる軽量で効果的な正規化手法を提案する。
論文 参考訳(メタデータ) (2021-06-07T09:03:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。