論文の概要: TeD-Loc: Text Distillation for Weakly Supervised Object Localization
- arxiv url: http://arxiv.org/abs/2501.12632v1
- Date: Wed, 22 Jan 2025 04:36:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-23 16:53:13.819303
- Title: TeD-Loc: Text Distillation for Weakly Supervised Object Localization
- Title(参考訳): TeD-Loc: 弱教師付き物体定位のためのテキスト蒸留
- Authors: Shakeeb Murtaza, Soufiane Belharbi, Marco Pedersoli, Eric Granger,
- Abstract要約: TeD-Locは、CLIPテキストの埋め込みからモデルバックボーンに知識を抽出し、パッチレベルのローカライゼーションを生成するアプローチである。
CUBとILSVRCの両方のデータセットで、最先端モデルのTop-1LOC精度を約5%向上させる。
- 参考スコア(独自算出の注目度): 13.412674368913747
- License:
- Abstract: Weakly supervised object localization (WSOL) using classification models trained with only image-class labels remains an important challenge in computer vision. Given their reliance on classification objectives, traditional WSOL methods like class activation mapping focus on the most discriminative object parts, often missing the full spatial extent. In contrast, recent WSOL methods based on vision-language models like CLIP require ground truth classes or external classifiers to produce a localization map, limiting their deployment in downstream tasks. Moreover, methods like GenPromp attempt to address these issues but introduce considerable complexity due to their reliance on conditional denoising processes and intricate prompt learning. This paper introduces Text Distillation for Localization (TeD-Loc), an approach that directly distills knowledge from CLIP text embeddings into the model backbone and produces patch-level localization. Multiple instance learning of these image patches allows for accurate localization and classification using one model without requiring external classifiers. Such integration of textual and visual modalities addresses the longstanding challenge of achieving accurate localization and classification concurrently, as WSOL methods in the literature typically converge at different epochs. Extensive experiments show that leveraging text embeddings and localization cues provides a cost-effective WSOL model. TeD-Loc improves Top-1 LOC accuracy over state-of-the-art models by about 5% on both CUB and ILSVRC datasets, while significantly reducing computational complexity compared to GenPromp.
- Abstract(参考訳): イメージクラスラベルのみを用いて訓練された分類モデルを用いたオブジェクトローカライゼーション(WSOL)は、コンピュータビジョンにおいて重要な課題である。
分類対象に依存しているため、クラスアクティベーションマッピングのような従来のWSOLメソッドは最も識別性の高いオブジェクト部品に焦点を合わせ、しばしば空間範囲を完全に欠いている。
これとは対照的に、CLIPのようなビジョン言語モデルに基づく最近のWSOLメソッドでは、ローカライゼーションマップを生成するために、下位の真理クラスや外部の分類器を必要とし、下流タスクへのデプロイメントを制限している。
さらに、GenPrompのような手法はこれらの問題に対処しようとするが、条件付き分極プロセスに依存し、複雑な素早い学習によってかなり複雑になる。
本稿では,CLIPテキストの埋め込みから直接知識を抽出し,パッチレベルのローカライゼーションを生成するTeD-Loc(Text Distillation for Localization)を提案する。
これらのイメージパッチの複数のインスタンス学習は、外部分類器を必要とせずに、1つのモデルを使用した正確なローカライゼーションと分類を可能にする。
このようなテキストと視覚のモダリティの統合は、文学におけるWSOLメソッドが典型的に異なるエポックに収束するため、正確なローカライゼーションと分類を同時に達成するという長年にわたる課題に対処する。
大規模な実験により、テキスト埋め込みとローカライズキューを利用することで、コスト効率の良いWSOLモデルが得られることが示されている。
TeD-Locは、最先端モデルのTop-1LOC精度を、CUBとILSVRCの両方のデータセットで約5%改善すると同時に、GenPrompと比較して計算複雑性を著しく低減する。
関連論文リスト
- Towards Realistic Zero-Shot Classification via Self Structural Semantic
Alignment [53.2701026843921]
大規模事前訓練型視覚言語モデル(VLM)はゼロショット分類に有効であることが証明されている。
本稿では,アノテーションではなく,より広い語彙を前提とした,より難易度の高いゼロショット分類(Realistic Zero-Shot Classification)を提案する。
本稿では,ラベルのないデータから構造意味情報を抽出し,同時に自己学習を行う自己構造意味アライメント(S3A)フレームワークを提案する。
論文 参考訳(メタデータ) (2023-08-24T17:56:46Z) - Generative Prompt Model for Weakly Supervised Object Localization [108.79255454746189]
判別対象の少ない部分のローカライズのための生成的プロンプトモデル(GenPromp)を提案する。
トレーニング中、GenPrompはイメージカテゴリラベルを、生成モデルに供給される学習可能なプロンプト埋め込みに変換する。
CUB-200-2011 と ILSVRC の実験では、GenPromp がそれぞれ最高の識別モデルを上回っている。
論文 参考訳(メタデータ) (2023-07-19T05:40:38Z) - Prompting Language-Informed Distribution for Compositional Zero-Shot Learning [73.49852821602057]
合成ゼロショット学習(CZSL)タスクは、目に見えない合成視覚概念を認識することを目的としている。
本稿では,タスクに対して言語インフォームド分布(PLID)を指示するモデルを提案する。
MIT-States、UT-Zappos、C-GQAデータセットの実験結果は、PLIDの先行技術よりも優れた性能を示している。
論文 参考訳(メタデータ) (2023-05-23T18:00:22Z) - CREAM: Weakly Supervised Object Localization via Class RE-Activation
Mapping [18.67907876709536]
Class Re-Activation Mapping (CREAM)は、統合オブジェクト領域の活性化値を高めるクラスタリングベースのアプローチである。
CREAMは、CUB、ILSVRC、OpenImagesベンチマークデータセットの最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2022-05-27T11:57:41Z) - Evaluation for Weakly Supervised Object Localization: Protocol, Metrics,
and Datasets [65.73451960585571]
我々は、弱教師付きオブジェクトローカライゼーション(WSOL)タスクは、画像レベルのラベルだけでは不十分であると主張している。
本稿では,テストセットと重複しない小さなホールトアウトセットにのみ,完全な監視が制限される新しい評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-07-08T15:09:16Z) - Pairwise Similarity Knowledge Transfer for Weakly Supervised Object
Localization [53.99850033746663]
弱教師付き画像ラベルを持つ対象クラスにおける局所化モデル学習の問題点について検討する。
本研究では,対象関数のみの学習は知識伝達の弱い形態であると主張する。
COCOおよびILSVRC 2013検出データセットの実験では、ペアワイズ類似度関数を含むことにより、ローカライズモデルの性能が大幅に向上することが示された。
論文 参考訳(メタデータ) (2020-03-18T17:53:33Z) - Weakly-supervised Object Localization for Few-shot Learning and
Fine-grained Few-shot Learning [0.5156484100374058]
少数のサンプルから新しい視覚カテゴリーを学習することを目的としている。
本稿では,自己認識型補完モジュール(SACモジュール)を提案する。
また,数発の分類のために,識別的深層記述子を選択するためのアクティブマスクも生成する。
論文 参考訳(メタデータ) (2020-03-02T14:07:05Z) - Evaluating Weakly Supervised Object Localization Methods Right [65.73451960585571]
我々は、弱教師付きオブジェクトローカライゼーション(WSOL)タスクは、画像レベルのラベルだけでは不十分であると主張している。
本稿では,テストセットと重複しない小さなホールトアウトセットにのみ,完全な監視が制限される新しい評価プロトコルを提案する。
論文 参考訳(メタデータ) (2020-01-21T10:50:06Z) - Deep Weakly-Supervised Learning Methods for Classification and
Localization in Histology Images: A Survey [25.429124017422385]
深層学習モデルを用いて癌を診断することはいくつかの課題をもたらす。
深層弱教師付きオブジェクトローカライゼーション(WSOL)手法は、ディープラーニングモデルの低コストトレーニングのための戦略を提供する。
本稿では,WSOL の最先端 DL 手法について概説する。
論文 参考訳(メタデータ) (2019-09-08T00:01:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。