論文の概要: VLCounter: Text-aware Visual Representation for Zero-Shot Object
Counting
- arxiv url: http://arxiv.org/abs/2312.16580v2
- Date: Sun, 31 Dec 2023 03:51:32 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-02 19:55:00.343985
- Title: VLCounter: Text-aware Visual Representation for Zero-Shot Object
Counting
- Title(参考訳): VLCounter:ゼロショットオブジェクトカウントのためのテキスト対応ビジュアル表現
- Authors: Seunggu Kang, WonJun Moon, Euiyeon Kim, Jae-Pil Heo
- Abstract要約: Zero-Shot Object Counting (ZSOC)は、クエリイメージ内の任意のクラスの参照インスタンスを、人間が注釈を付けることなくカウントすることを目的としている。
ZSOCに対処するため、先行研究は2段階のパイプラインを提案した。
本稿では,CLIPのセマンティックパッチ埋め込みの暗黙的関連を探求するワンステージベースラインであるVisual-Language Baseline (VLBase)を提案する。
- 参考スコア(独自算出の注目度): 19.970212775707797
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Zero-Shot Object Counting (ZSOC) aims to count referred instances of
arbitrary classes in a query image without human-annotated exemplars. To deal
with ZSOC, preceding studies proposed a two-stage pipeline: discovering
exemplars and counting. However, there remains a challenge of vulnerability to
error propagation of the sequentially designed two-stage process. In this work,
an one-stage baseline, Visual-Language Baseline (VLBase), exploring the
implicit association of the semantic-patch embeddings of CLIP is proposed.
Subsequently, the extension of VLBase to Visual-language Counter (VLCounter) is
achieved by incorporating three modules devised to tailor VLBase for object
counting. First, Semantic-conditioned Prompt Tuning (SPT) is introduced within
the image encoder to acquire target-highlighted representations. Second,
Learnable Affine Transformation (LAT) is employed to translate the
semantic-patch similarity map to be appropriate for the counting task. Lastly,
the layer-wisely encoded features are transferred to the decoder through
Segment-aware Skip Connection (SaSC) to keep the generalization capability for
unseen classes. Through extensive experiments on FSC147, CARPK, and PUCPR+, the
benefits of the end-to-end framework, VLCounter, are demonstrated.
- Abstract(参考訳): Zero-Shot Object Counting (ZSOC)は、クエリイメージ内の任意のクラスの参照インスタンスを、人間が注釈を付けることなくカウントすることを目的としている。
ZSOCに対処するため、先行研究は2段階のパイプラインを提案した。
しかし、逐次的に設計された2段階プロセスのエラー伝播には脆弱性がある。
本稿では,CLIPのセマンティックパッチ埋め込みの暗黙的関連を探求するワンステージベースラインであるVisual-Language Baseline (VLBase)を提案する。
その後、VLBaseからVisual- Language Counter(VLCounter)への拡張は、オブジェクトカウントのためにVLBaseをカスタマイズするために考案された3つのモジュールを統合することで達成される。
まず、SPT(Semantic-conditioned Prompt Tuning)が画像エンコーダ内に導入され、ターゲットハイライト表現を取得する。
第二に、Learningable Affine Transformation (LAT) を用いて、意味パッチ類似性マップをカウントタスクに適したものに翻訳する。
最後に、レイヤワイズで符号化された機能は、Segment-aware Skip Connection (SaSC)を通じてデコーダに転送される。
FSC147、CARPK、PUCPR+に関する広範な実験を通じて、エンドツーエンドフレームワークであるVLCounterの利点が示された。
関連論文リスト
- Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised
Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。
また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文 参考訳(メタデータ) (2024-03-02T10:03:21Z) - Generalizable Semantic Vision Query Generation for Zero-shot Panoptic
and Semantic Segmentation [3.1976724095315268]
Zero-shot Panoptic(ZPS)は、トレーニングで目に見えないカテゴリを含むイメージなしで、フォアグラウンドインスタンスやバックグラウンドオブジェクトを認識することを目的としている。
一般化可能なセマンティックビジョンクエリを生成するための条件付きtOken AligNmentとCycle trAnsiTion(CONCAT)を提案する。
ZPSの実験はSOTAを超える5.2%hPQの増加を達成した。
論文 参考訳(メタデータ) (2024-02-21T10:57:21Z) - Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for
Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。
本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文 参考訳(メタデータ) (2023-11-28T02:28:12Z) - CLIP Is Also a Good Teacher: A New Learning Framework for Inductive
Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。
既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。
ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文 参考訳(メタデータ) (2023-10-03T09:33:47Z) - Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。
提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。
この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文 参考訳(メタデータ) (2023-08-27T13:17:34Z) - Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。
融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。
我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文 参考訳(メタデータ) (2023-08-19T09:12:13Z) - CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。
テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。
本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文 参考訳(メタデータ) (2023-05-12T08:19:39Z) - [CLS] Token is All You Need for Zero-Shot Semantic Segmentation [60.06653755695356]
本稿では,事前学習された視覚言語モデルCLIPに基づく,恥ずかしいほどシンプルで効果的なゼロショットセマンティックセマンティックセマンティックセマンティクス(ZS3)法を提案する。
具体的には、テキストブランチから出力される[text]トークンを補助的なセマンティックプロンプトとして使用し、ViTベースのビジュアルエンコーダの浅い層におけるナビゲーション[text]トークンを置き換える。
提案したZS3法は,SOTA性能を達成し,その数発のセマンティックセマンティックセグメンテーション法と同等である。
論文 参考訳(メタデータ) (2023-04-13T01:35:07Z) - GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation
Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。
実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文 参考訳(メタデータ) (2023-03-16T12:06:02Z) - Teaching CLIP to Count to Ten [18.703050317383322]
大規模視覚言語モデル(VLM)の定量的理解を改善するための,シンプルで効果的な手法を提案する。
そこで本研究では,既存のVLMを本来の目的に合わせて微調整するために,新たな計数コントラスト損失を提案する。
私たちの知る限りでは、この作業はCLIPの機能をオブジェクトカウントに拡張した最初のものです。
論文 参考訳(メタデータ) (2023-02-23T14:43:53Z) - CounTR: Transformer-based Generalised Visual Counting [94.54725247039441]
我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。
FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
論文 参考訳(メタデータ) (2022-08-29T17:02:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。