Fugu-MT 論文翻訳(概要): VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting

論文の概要: VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting

arxiv url: http://arxiv.org/abs/2312.16580v2
Date: Sun, 31 Dec 2023 03:51:32 GMT
ステータス: 翻訳完了
システム内更新日: 2024-01-02 19:55:00.343985
Title: VLCounter: Text-aware Visual Representation for Zero-Shot Object Counting
Title（参考訳）: VLCounter:ゼロショットオブジェクトカウントのためのテキスト対応ビジュアル表現
Authors: Seunggu Kang, WonJun Moon, Euiyeon Kim, Jae-Pil Heo
Abstract要約: Zero-Shot Object Counting (ZSOC)は、クエリイメージ内の任意のクラスの参照インスタンスを、人間が注釈を付けることなくカウントすることを目的としている。 ZSOCに対処するため、先行研究は2段階のパイプラインを提案した。本稿では,CLIPのセマンティックパッチ埋め込みの暗黙的関連を探求するワンステージベースラインであるVisual-Language Baseline (VLBase)を提案する。
参考スコア（独自算出の注目度）: 19.970212775707797
License: http://creativecommons.org/licenses/by-sa/4.0/
Abstract: Zero-Shot Object Counting (ZSOC) aims to count referred instances of arbitrary classes in a query image without human-annotated exemplars. To deal with ZSOC, preceding studies proposed a two-stage pipeline: discovering exemplars and counting. However, there remains a challenge of vulnerability to error propagation of the sequentially designed two-stage process. In this work, an one-stage baseline, Visual-Language Baseline (VLBase), exploring the implicit association of the semantic-patch embeddings of CLIP is proposed. Subsequently, the extension of VLBase to Visual-language Counter (VLCounter) is achieved by incorporating three modules devised to tailor VLBase for object counting. First, Semantic-conditioned Prompt Tuning (SPT) is introduced within the image encoder to acquire target-highlighted representations. Second, Learnable Affine Transformation (LAT) is employed to translate the semantic-patch similarity map to be appropriate for the counting task. Lastly, the layer-wisely encoded features are transferred to the decoder through Segment-aware Skip Connection (SaSC) to keep the generalization capability for unseen classes. Through extensive experiments on FSC147, CARPK, and PUCPR+, the benefits of the end-to-end framework, VLCounter, are demonstrated.
Abstract（参考訳）: Zero-Shot Object Counting (ZSOC)は、クエリイメージ内の任意のクラスの参照インスタンスを、人間が注釈を付けることなくカウントすることを目的としている。 ZSOCに対処するため、先行研究は2段階のパイプラインを提案した。しかし、逐次的に設計された2段階プロセスのエラー伝播には脆弱性がある。本稿では,CLIPのセマンティックパッチ埋め込みの暗黙的関連を探求するワンステージベースラインであるVisual-Language Baseline (VLBase)を提案する。その後、VLBaseからVisual- Language Counter(VLCounter)への拡張は、オブジェクトカウントのためにVLBaseをカスタマイズするために考案された3つのモジュールを統合することで達成される。まず、SPT(Semantic-conditioned Prompt Tuning)が画像エンコーダ内に導入され、ターゲットハイライト表現を取得する。第二に、Learningable Affine Transformation (LAT) を用いて、意味パッチ類似性マップをカウントタスクに適したものに翻訳する。最後に、レイヤワイズで符号化された機能は、Segment-aware Skip Connection (SaSC)を通じてデコーダに転送される。 FSC147、CARPK、PUCPR+に関する広範な実験を通じて、エンドツーエンドフレームワークであるVLCounterの利点が示された。

関連論文リスト

Split Matching for Inductive Zero-shot Semantic Segmentation [52.90218623214213]
Zero-shot Semantic (ZSS)は、トレーニング中にアノテートされていないカテゴリをセグメントすることを目的としている。ハンガリーのマッチングを2つのコンポーネントに分離する新しい割当て戦略であるSplit Matching (SM)を提案する。 SMは、インダクティブZSS設定の下で最初に分離されたハンガリー語マッチングを導入し、2つの標準ベンチマークで最先端のパフォーマンスを達成した。
論文参考訳（メタデータ） (2025-05-08T07:56:30Z)
SDVPT: Semantic-Driven Visual Prompt Tuning for Open-World Object Counting [70.49268117587562]
本稿では,トレーニングセットから未知のカテゴリに知識を伝達する,セマンティック駆動型ビジュアルプロンプトチューニングフレームワーク(SDVPT)を提案する。推論中,見知らぬカテゴリと訓練カテゴリのセマンティックな相関に基づいて,見つからないカテゴリの視覚的プロンプトを動的に合成する。
論文参考訳（メタデータ） (2025-04-24T09:31:08Z)
Bridge the Gap Between Visual and Linguistic Comprehension for Generalized Zero-shot Semantic Segmentation [39.17707407384492]
汎用ゼロショットセマンティックセマンティックセグメンテーション(GZS3)は、目に見えないクラスや見えないクラスのセグメンテーションを実現することを目的としている。本稿では,空間部品 (SPMatch) とチャネル状態 (CSMatch) マッチングモジュールからなるデカップリング型視覚言語マッチング (DeVLMatch) フレームワークを提案する。
論文参考訳（メタデータ） (2025-03-31T07:39:14Z)
Auxiliary Tasks Enhanced Dual-affinity Learning for Weakly Supervised Semantic Segmentation [79.05949524349005]
AuxSegNet+は、サリエンシマップから豊富な情報を探索する弱教師付き補助学習フレームワークである。また,サリエンシとセグメンテーションの特徴マップから画素レベルの親和性を学習するためのクロスタスク親和性学習機構を提案する。
論文参考訳（メタデータ） (2024-03-02T10:03:21Z)
Generalizable Semantic Vision Query Generation for Zero-shot Panoptic and Semantic Segmentation [3.1976724095315268]
Zero-shot Panoptic(ZPS)は、トレーニングで目に見えないカテゴリを含むイメージなしで、フォアグラウンドインスタンスやバックグラウンドオブジェクトを認識することを目的としている。一般化可能なセマンティックビジョンクエリを生成するための条件付きtOken AligNmentとCycle trAnsiTion(CONCAT)を提案する。 ZPSの実験はSOTAを超える5.2%hPQの増加を達成した。
論文参考訳（メタデータ） (2024-02-21T10:57:21Z)
Beyond Visual Cues: Synchronously Exploring Target-Centric Semantics for Vision-Language Tracking [3.416427651955299]
単一のオブジェクトトラッキングは、最初の状態から、ビデオシーケンス内の特定のターゲットを見つけることを目的としている。ビジョンランゲージ(VL)トラッキングは、有望なアプローチとして登場した。本稿では,VL追跡のためのターゲット中心のセマンティクスを徐々に探求する新しいトラッカーを提案する。
論文参考訳（メタデータ） (2023-11-28T02:28:12Z)
CLIP Is Also a Good Teacher: A New Learning Framework for Inductive Zero-shot Semantic Segmentation [6.181169909576527]
汎用Zero-shot Semanticは、目に見えないカテゴリーと見えないカテゴリの両方を、目に見えないカテゴリの監督下だけに分割することを目的としている。既存の手法では大規模な視覚言語モデル(VLM)を採用しており、ゼロショット性能が優れている。ゼロショットおよびオープンボキャブラリタスクに適用されたクローズドセットセグメンテーション用に設計された任意のイメージエンコーダを実現するためのトレーニングフレームワークであるCLIP-ZSS(Zero-shot Semantic)を提案する。
論文参考訳（メタデータ） (2023-10-03T09:33:47Z)
Towards Unified Token Learning for Vision-Language Tracking [65.96561538356315]
本稿では,VL追跡をトークン生成タスクとして用いた「textbfMMTrack」という,視覚言語(VL)追跡パイプラインを提案する。提案フレームワークは,言語記述と境界ボックスを離散トークン列にシリアライズする。この新しい設計パラダイムでは、全てのトークンクエリが望ましいターゲットを認識し、ターゲットの空間座標を直接予測するために必要となる。
論文参考訳（メタデータ） (2023-08-27T13:17:34Z)
Semantics Meets Temporal Correspondence: Self-supervised Object-centric Learning in Videos [63.94040814459116]
自己教師付き手法は、高レベルの意味論と低レベルの時間対応の学習において顕著な進歩を見せている。融合した意味特徴と対応地図の上に,意味認識型マスキングスロットアテンションを提案する。我々は、時間的コヒーレントなオブジェクト中心表現を促進するために、セマンティックおよびインスタンスレベルの時間的一貫性を自己スーパービジョンとして採用する。
論文参考訳（メタデータ） (2023-08-19T09:12:13Z)
Exploring Part-Informed Visual-Language Learning for Person Re-Identification [52.92511980835272]
本稿では、ReIDタスクのための部分インフォームド言語監督機能により、きめ細かな視覚的特徴を高めるために、部分インフォームド・ビジュアル・ランゲージ・ラーニング(pi$-VL)を提案する。 $pi$-VLは、人間のパーシング誘導のプロンプトチューニング戦略と階層的な視覚言語アライメントパラダイムを導入し、内部機能のセマンティック一貫性を保証する。我々の$pi$-VLは、プラグアンドプレイで推論不要なソリューションとして、4つの一般的なReIDベンチマークの最先端メソッドに匹敵するパフォーマンスを達成する。
論文参考訳（メタデータ） (2023-08-04T23:13:49Z)
CLIP-Count: Towards Text-Guided Zero-Shot Object Counting [32.07271723717184]
オープン語彙オブジェクトの密度マップをゼロショットで推定する,最初のエンドツーエンドパイプラインであるCLIP-Countを提案する。テキスト埋め込みを濃密な視覚特徴と整合させるため、我々は、密集した予測のための情報的パッチレベルの視覚表現を学習するために、モデルを誘導するパッチテキストコントラスト損失を導入する。本手法は,対象物に対する高品質な密度マップを効果的に生成する。
論文参考訳（メタデータ） (2023-05-12T08:19:39Z)
[CLS] Token is All You Need for Zero-Shot Semantic Segmentation [60.06653755695356]
本稿では,事前学習された視覚言語モデルCLIPに基づく,恥ずかしいほどシンプルで効果的なゼロショットセマンティックセマンティックセマンティックセマンティクス(ZS3)法を提案する。具体的には、テキストブランチから出力される[text]トークンを補助的なセマンティックプロンプトとして使用し、ViTベースのビジュアルエンコーダの浅い層におけるナビゲーション[text]トークンを置き換える。提案したZS3法は,SOTA性能を達成し,その数発のセマンティックセマンティックセグメンテーション法と同等である。
論文参考訳（メタデータ） (2023-04-13T01:35:07Z)
GridCLIP: One-Stage Object Detection by Grid-Level CLIP Representation Learning [55.77244064907146]
一段階検出器GridCLIPはグリッドレベルの表現を学習し、一段階検出学習の本質的な原理に適応する。実験により、学習したCLIPベースのグリッドレベル表現は、アンダーサンプリングされた(稀で新しい)カテゴリのパフォーマンスを高めることが示された。
論文参考訳（メタデータ） (2023-03-16T12:06:02Z)
Teaching CLIP to Count to Ten [18.703050317383322]
大規模視覚言語モデル(VLM)の定量的理解を改善するための,シンプルで効果的な手法を提案する。そこで本研究では,既存のVLMを本来の目的に合わせて微調整するために,新たな計数コントラスト損失を提案する。私たちの知る限りでは、この作業はCLIPの機能をオブジェクトカウントに拡張した最初のものです。
論文参考訳（メタデータ） (2023-02-23T14:43:53Z)
CounTR: Transformer-based Generalised Visual Counting [94.54725247039441]
我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。 FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
論文参考訳（メタデータ） (2022-08-29T17:02:45Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。