論文の概要: Generative Prompt Model for Weakly Supervised Object Localization
- arxiv url: http://arxiv.org/abs/2307.09756v1
- Date: Wed, 19 Jul 2023 05:40:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-07-20 15:26:47.105106
- Title: Generative Prompt Model for Weakly Supervised Object Localization
- Title(参考訳): 弱教師付き物体定位のための生成的プロンプトモデル
- Authors: Yuzhong Zhao, Qixiang Ye, Weijia Wu, Chunhua Shen, Fang Wan
- Abstract要約: 判別対象の少ない部分のローカライズのための生成的プロンプトモデル(GenPromp)を提案する。
トレーニング中、GenPrompはイメージカテゴリラベルを、生成モデルに供給される学習可能なプロンプト埋め込みに変換する。
CUB-200-2011 と ILSVRC の実験では、GenPromp がそれぞれ最高の識別モデルを上回っている。
- 参考スコア(独自算出の注目度): 108.79255454746189
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly supervised object localization (WSOL) remains challenging when
learning object localization models from image category labels. Conventional
methods that discriminatively train activation models ignore representative yet
less discriminative object parts. In this study, we propose a generative prompt
model (GenPromp), defining the first generative pipeline to localize less
discriminative object parts by formulating WSOL as a conditional image
denoising procedure. During training, GenPromp converts image category labels
to learnable prompt embeddings which are fed to a generative model to
conditionally recover the input image with noise and learn representative
embeddings. During inference, enPromp combines the representative embeddings
with discriminative embeddings (queried from an off-the-shelf vision-language
model) for both representative and discriminative capacity. The combined
embeddings are finally used to generate multi-scale high-quality attention
maps, which facilitate localizing full object extent. Experiments on
CUB-200-2011 and ILSVRC show that GenPromp respectively outperforms the best
discriminative models by 5.2% and 5.6% (Top-1 Loc), setting a solid baseline
for WSOL with the generative model. Code is available at
https://github.com/callsys/GenPromp.
- Abstract(参考訳): 画像カテゴリラベルからオブジェクトローカライゼーションモデルを学習する場合,WSOL (Weakly supervised Object Localization) は依然として困難である。
アクティベーションモデルを識別的に訓練する従来の方法は、代表的だが識別対象部品を無視する。
そこで本研究では,WSOLを条件付き画像復調法として定式化することにより,識別対象の少ない部分を局所化する生成パイプラインを初めて定義する生成プロンプトモデル(GenPromp)を提案する。
トレーニング中、GenPrompは画像カテゴリラベルを学習可能なプロンプト埋め込みに変換し、生成モデルに入力イメージを条件付きで復元し、代表埋め込みを学習する。
推論中、EnPrompは代表埋め込みと(既成のビジョン言語モデルからクエリされる)識別埋め込みを、代表と識別能力の両方に組み合わせる。
複合埋め込みは最終的にマルチスケールの高品質アテンションマップを生成するために使用され、完全なオブジェクトの範囲のローカライズが容易になる。
CUB-200-2011 と ILSVRC の実験では、GenPromp がそれぞれ5.2% と5.6% (Top-1 Loc) で最高の識別モデルより優れており、WSOL の安定なベースラインを生成モデルで設定している。
コードはhttps://github.com/callsys/GenPrompで入手できる。
関連論文リスト
- Generative Multi-modal Models are Good Class-Incremental Learners [51.5648732517187]
クラス増分学習のための新しい生成型マルチモーダルモデル(GMM)フレームワークを提案する。
提案手法は適応生成モデルを用いて画像のラベルを直接生成する。
Few-shot CIL設定では、現在の最先端のすべてのメソッドに対して少なくとも14%精度が向上し、忘れてはならない。
論文 参考訳(メタデータ) (2024-03-27T09:21:07Z) - Ref-Diff: Zero-shot Referring Image Segmentation with Generative Models [68.73086826874733]
本稿では,画像分割を参照するための新しい参照拡散分割器(Referring Diffusional segmentor, Ref-Diff)を提案する。
提案生成器がなければ、生成モデルだけで既存のSOTAの弱教師付きモデルに匹敵する性能を達成できることを実証する。
このことは、生成モデルがこのタスクに有益であり、より優れたセグメンテーションを参照するために識別モデルを補完できることを示している。
論文 参考訳(メタデータ) (2023-08-31T14:55:30Z) - Diffusion Models Beat GANs on Image Classification [37.70821298392606]
拡散モデルは、画像生成、復調、塗装、超解像、操作などの最先端の手法として注目されている。
本稿では,これらの埋め込みは識別情報を含むため,ノイズ予測タスクを超えて有用であり,分類にも活用できることを示す。
注意深い特徴選択とプーリングにより、拡散モデルは、分類タスクにおいて同等な生成的識別的手法より優れていることが判明した。
論文 参考訳(メタデータ) (2023-07-17T17:59:40Z) - Unicom: Universal and Compact Representation Learning for Image
Retrieval [65.96296089560421]
大規模LAION400Mを,CLIPモデルにより抽出された共同テキストと視覚的特徴に基づいて,100万の擬似クラスにクラスタリングする。
このような矛盾を緩和するために、我々は、マージンベースのソフトマックス損失を構築するために、ランダムにクラス間の部分的なプロトタイプを選択する。
提案手法は,複数のベンチマークにおいて,教師なし,教師なしの画像検索手法よりも優れていた。
論文 参考訳(メタデータ) (2023-04-12T14:25:52Z) - Constrained Sampling for Class-Agnostic Weakly Supervised Object
Localization [10.542859578763068]
自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。
本稿では,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,弱い教師付きオブジェクトローカライゼーションモデルをトレーニングする擬似ラベルを取得することを提案する。
論文 参考訳(メタデータ) (2022-09-09T19:58:38Z) - Discriminative Sampling of Proposals in Self-Supervised Transformers for
Weakly Supervised Object Localization [10.542859578763068]
自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。
本稿では,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,弱い教師付きオブジェクトローカライゼーションモデルをトレーニングする擬似ラベルを取得することを提案する。
論文 参考訳(メタデータ) (2022-09-09T18:33:23Z) - Dynamic Prototype Mask for Occluded Person Re-Identification [88.7782299372656]
既存の手法では、目に見える部分を識別するために、余分なネットワークによって提供される身体の手がかりを利用することで、この問題に対処している。
2つの自己明快な事前知識に基づく新しい動的プロトタイプマスク(DPM)を提案する。
この条件下では、隠蔽された表現は、選択された部分空間において自然にうまく整列することができる。
論文 参考訳(メタデータ) (2022-07-19T03:31:13Z) - Local and Global GANs with Semantic-Aware Upsampling for Image
Generation [201.39323496042527]
ローカルコンテキストを用いて画像を生成することを検討する。
セマンティックマップをガイダンスとして用いたクラス固有の生成ネットワークを提案する。
最後に,セマンティック・アウェア・アップサンプリング手法を提案する。
論文 参考訳(メタデータ) (2022-02-28T19:24:25Z) - Classify and Generate: Using Classification Latent Space Representations
for Image Generations [17.184760662429834]
本稿では,操作された教師付き潜在表現を用いて,与えられたクラスに属する新しいサンプルを再構成・生成する識別モデリングフレームワークを提案する。
ReGeneは、既存の条件生成モデルよりも高い分類精度を持ち、FIDの点で競争力がある。
論文 参考訳(メタデータ) (2020-04-16T09:13:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。