論文の概要: Boosting Quantitive and Spatial Awareness for Zero-Shot Object Counting
- arxiv url: http://arxiv.org/abs/2603.16129v1
- Date: Tue, 17 Mar 2026 05:32:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-18 17:42:07.108357
- Title: Boosting Quantitive and Spatial Awareness for Zero-Shot Object Counting
- Title(参考訳): ゼロショットオブジェクトカウントのための量子的および空間的認識の強化
- Authors: Da Zhang, Bingyu Li, Feiyu Wang, Zhiyuan Zhao, Junyu Gao,
- Abstract要約: Zero-shot Object counting (ZSOC) は、視覚的な見本を必要とせず、テキスト記述によって指定された任意のカテゴリのオブジェクトを列挙することを目的としている。
既存の手法では、微粒な量認識の欠如に悩まされ、粗い検索タスクとして数えられることが多い。
我々は,ロバストな空間的アンダーラインキャストアンダーラインアグリゲーションとアンダーラインインプリンダーラインを相乗化する新しいフレームワークであるtextbfQICAを提案する。
- 参考スコア(独自算出の注目度): 21.127727991498244
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Zero-shot object counting (ZSOC) aims to enumerate objects of arbitrary categories specified by text descriptions without requiring visual exemplars. However, existing methods often treat counting as a coarse retrieval task, suffering from a lack of fine-grained quantity awareness. Furthermore, they frequently exhibit spatial insensitivity and degraded generalization due to feature space distortion during model adaptation.To address these challenges, we present \textbf{QICA}, a novel framework that synergizes \underline{q}uantity percept\underline{i}on with robust spatial \underline{c}ast \underline{a}ggregation. Specifically, we introduce a Synergistic Prompting Strategy (\textbf{SPS}) that adapts vision and language encoders through numerically conditioned prompts, bridging the gap between semantic recognition and quantitative reasoning. To mitigate feature distortion, we propose a Cost Aggregation Decoder (\textbf{CAD}) that operates directly on vision-text similarity maps. By refining these maps through spatial aggregation, CAD prevents overfitting while preserving zero-shot transferability. Additionally, a multi-level quantity alignment loss ($\mathcal{L}_{MQA}$) is employed to enforce numerical consistency across the entire pipeline. Extensive experiments on FSC-147 demonstrate competitive performance, while zero-shot evaluation on CARPK and ShanghaiTech-A validates superior generalization to unseen domains.
- Abstract(参考訳): Zero-shot Object counting (ZSOC) は、視覚的な見本を必要とせず、テキスト記述によって指定された任意のカテゴリのオブジェクトを列挙することを目的としている。
しかし,既存の手法では,細かな量認識の欠如に悩まされ,粗い検索課題として数えられることが多い。
さらに, モデル適応時の特徴空間歪みによる空間的不感さや一般化の低下をしばしば示し, それらの課題に対処するために, 頑健な空間的内在的内在的内在的内在的内在的内在的内在的外在的外在的外在的外在的外在的外向的外向的外向的外向的外向的外向的内在的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的外向的空間的外向的外向的
具体的には、数値条件付きプロンプトを通じて視覚と言語エンコーダを適応させ、意味認識と量的推論のギャップを埋めるSynergistic Prompting Strategy (\textbf{SPS})を導入する。
特徴歪みを軽減するために,視覚テキスト類似性マップを直接操作するコストアグリゲーションデコーダ(\textbf{CAD})を提案する。
空間アグリゲーションを通してこれらのマップを精製することにより、CADはゼロショット転送性を維持しながら過度に適合するのを防ぐ。
さらに、パイプライン全体の数値一貫性を強制するために、マルチレベル量のアライメント損失($\mathcal{L}_{MQA}$)が使用される。
FSC-147の広範な実験は競争性能を示し、CARPKとShanghaiTech-Aのゼロショット評価は、目に見えない領域への優れた一般化を実証する。
関連論文リスト
- Rethinking Multi-Condition DiTs: Eliminating Redundant Attention via Position-Alignment and Keyword-Scoping [61.459927600301654]
マルチコンディション制御は従来のコンカデント・アンド・アットエンドの戦略によってボトルネックとなる。
分析の結果,これらの相互作用の多くは空間的にも意味的にも冗長であることがわかった。
本稿では,これらの冗長性を解消するための高効率なフレームワークであるPKAを提案する。
論文 参考訳(メタデータ) (2026-02-06T16:39:10Z) - CIEC: Coupling Implicit and Explicit Cues for Multimodal Weakly Supervised Manipulation Localization [25.78477436147408]
Implicit と Explicit Cues (CIEC) の結合は、画像とテキストのペアに対するマルチモーダルな弱い教師付き操作のローカライゼーションを実現することを目的としている。
視覚とテキストの両方の観点から偽造の手がかりを統合し、空間的先行によって助けられた疑わしい領域にロックする。
後者では、意味のあるコンテンツワードに焦点を当て、相対的な視覚バイアスを利用してトークンのローカライゼーションを支援する。
論文 参考訳(メタデータ) (2026-02-02T14:46:38Z) - Counting Through Occlusion: Framework for Open World Amodal Counting [0.4938653942693004]
階層的マルチモーダルガイダンスにより、隠蔽対象の特徴を明示的に再構築するアモーダルカウントフレームワークであるCountOCCを提案する。
また、注目空間における一貫性を強制する視覚的同値性目標を導入し、同一シーンの隠蔽と非隠蔽の両方が空間的に整合した勾配に基づく注目マップを生成することを保証する。
論文 参考訳(メタデータ) (2025-11-16T17:37:54Z) - Saccadic Vision for Fine-Grained Visual Classification [10.681604440788854]
きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存のパートベースの手法は、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存している。
本稿では,まず周辺特徴を抽出し,サンプルマップを生成する2段階プロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
論文 参考訳(メタデータ) (2025-09-19T07:03:37Z) - Semantic Concentration for Self-Supervised Dense Representations Learning [103.10708947415092]
イメージレベルの自己教師型学習(SSL)は大きな進歩を遂げているが、パッチの密度の高い表現を学ぶことは依然として難しい。
この研究は、画像レベルのSSLが暗黙のセマンティックな集中を伴って過分散を避けることを明らかにしている。
論文 参考訳(メタデータ) (2025-09-11T13:12:10Z) - Rethinking Discrete Tokens: Treating Them as Conditions for Continuous Autoregressive Image Synthesis [79.98107530577576]
DisConは、離散トークンを生成ターゲットではなく条件信号として再解釈する新しいフレームワークである。
DisConは、ImageNet 256$times $256 世代で gFID スコアが 1.38 に達し、最先端の自己回帰アプローチよりも明確なマージンで優れている。
論文 参考訳(メタデータ) (2025-07-02T14:33:52Z) - Dense Retrievers Can Fail on Simple Queries: Revealing The Granularity Dilemma of Embeddings [65.31723739561151]
埋め込みは、エンコードされたセマンティクス内のきめ細かいエンティティやイベントを認識できないかもしれない。
本稿では,新たな評価データセットであるCapRetrievalを導入し,文節は画像キャプションであり,クエリはエンティティやイベントの概念を多種多様な形式でターゲットとするフレーズである。
我々は提案したデータ生成戦略でエンコーダを微調整し、小さな0.1Bエンコーダで最先端の7Bモデルを上回る性能を実現した。
論文 参考訳(メタデータ) (2025-06-10T09:00:33Z) - Discriminator-Free Generative Adversarial Attack [87.71852388383242]
生成的ベースの敵攻撃は、この制限を取り除くことができる。
ASymmetric Saliency-based Auto-Encoder (SSAE) は摂動を生成する。
SSAEが生成した敵の例は、広く使われているモデルを崩壊させるだけでなく、優れた視覚的品質を実現する。
論文 参考訳(メタデータ) (2021-07-20T01:55:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。