論文の概要: Counting Through Occlusion: Framework for Open World Amodal Counting
- arxiv url: http://arxiv.org/abs/2511.12702v1
- Date: Sun, 16 Nov 2025 17:37:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-18 14:36:24.489656
- Title: Counting Through Occlusion: Framework for Open World Amodal Counting
- Title(参考訳): Occlusionを通じてカウントする: オープンワールドアモーダルカウントのためのフレームワーク
- Authors: Safaeid Hossain Arib, Rabeya Akter, Abdul Monaf Chowdhury, Md Jubair Ahmed Sourov, Md Mehedi Hasan,
- Abstract要約: 階層的マルチモーダルガイダンスにより、隠蔽対象の特徴を明示的に再構築するアモーダルカウントフレームワークであるCountOCCを提案する。
また、注目空間における一貫性を強制する視覚的同値性目標を導入し、同一シーンの隠蔽と非隠蔽の両方が空間的に整合した勾配に基づく注目マップを生成することを保証する。
- 参考スコア(独自算出の注目度): 0.4938653942693004
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Object counting has achieved remarkable success on visible instances, yet state-of-the-art (SOTA) methods fail under occlusion, a pervasive challenge in real world deployment. This failure stems from a fundamental architectural limitation where backbone networks encode occluding surfaces rather than target objects, thereby corrupting the feature representations required for accurate enumeration. To address this, we present CountOCC, an amodal counting framework that explicitly reconstructs occluded object features through hierarchical multimodal guidance. Rather than accepting degraded encodings, we synthesize complete representations by integrating spatial context from visible fragments with semantic priors from text and visual embeddings, generating class-discriminative features at occluded locations across multiple pyramid levels. We further introduce a visual equivalence objective that enforces consistency in attention space, ensuring that both occluded and unoccluded views of the same scene produce spatially aligned gradient-based attention maps. Together, these complementary mechanisms preserve discriminative properties essential for accurate counting under occlusion. For rigorous evaluation, we establish occlusion-augmented versions of FSC 147 and CARPK spanning both structured and unstructured scenes. CountOCC achieves SOTA performance on FSC 147 with 26.72% and 20.80% MAE reduction over prior baselines under occlusion in validation and test, respectively. CountOCC also demonstrates exceptional generalization by setting new SOTA results on CARPK with 49.89% MAE reduction and on CAPTUREReal with 28.79% MAE reduction, validating robust amodal counting across diverse visual domains. Code will be released soon.
- Abstract(参考訳): オブジェクトのカウントは、目に見えるインスタンスで顕著に成功したが、最先端のSOTA(State-of-the-art)メソッドは、隠蔽下で失敗し、現実のデプロイメントにおいて広範囲にわたる課題となっている。
この失敗は、バックボーンネットワークがターゲットオブジェクトではなくオクルージョンサーフェスをエンコードする基本的なアーキテクチャ上の制限に起因し、正確な列挙に必要な特徴表現を破損させる。
そこで本研究では,階層的マルチモーダルガイダンスを用いて,隠蔽対象の特徴を明示的に再構築するアモーダルカウントフレームワークであるCountOCCを提案する。
劣化したエンコーディングを受け入れるのではなく、可視的断片からテキストや視覚的埋め込みからのセマンティックな先行情報と空間的コンテキストを統合して完全な表現を合成し、複数のピラミッドレベルにわたって隠蔽された場所でクラス識別的特徴を生成する。
さらに、注目空間における一貫性を強制する視覚的同値性目標を導入し、同一シーンの隠蔽と非隠蔽の両方が空間的に整合した勾配に基づく注目マップを生成することを保証する。
これらの相補的な機構は、閉塞下での正確な数え上げに不可欠な識別特性を保っている。
厳密な評価のために,構造化シーンと非構造化シーンにまたがるFSC 147とCARPKの咬合増強バージョンを構築した。
CountOCC は FSC 147 の SOTA 性能を 26.72% と 20.80% MAE で達成し、それぞれ検証とテストで除外されている。
CountOCCはまた、CARPKに49.89%のMAEを減少させ、CAPTURERealに28.79%のMAEを減少させ、様々な視覚領域にまたがる堅牢なアモーダル数を検証することで、例外的な一般化を示す。
コードはまもなくリリースされる。
関連論文リスト
- Enhancing CLIP Robustness via Cross-Modality Alignment [54.01929554563447]
視覚言語モデルのための最適なトランスポートベースフレームワークであるクロスモダリティアライメントを提案する。
COLAは、グローバルな画像テキストアライメントと特徴空間における局所的な構造的一貫性を復元する。
COLAはトレーニングフリーで、既存の微調整モデルと互換性がある。
論文 参考訳(メタデータ) (2025-10-28T03:47:44Z) - Saccadic Vision for Fine-Grained Visual Classification [10.681604440788854]
きめ細かい視覚分類(FGVC)は、微妙で局所的な特徴によって視覚的に類似したカテゴリーを区別する必要がある。
既存のパートベースの手法は、ピクセルからサンプル空間へのマッピングを学習する複雑なローカライゼーションネットワークに依存している。
本稿では,まず周辺特徴を抽出し,サンプルマップを生成する2段階プロセスを提案する。
我々は、周辺と焦点の表現を融合する前に、各固定パッチの影響を定量的に評価するために、文脈選択的注意を用いる。
論文 参考訳(メタデータ) (2025-09-19T07:03:37Z) - Generalized Decoupled Learning for Enhancing Open-Vocabulary Dense Perception [71.26728044621458]
DeCLIPは、CLIPを強化する新しいフレームワークで、自己認識モジュールを分離して、それぞれコンテンツ’と“コンテキスト’の機能を取得する。
2D検出とセグメンテーション、3Dインスタンスのセグメンテーション、ビデオインスタンスのセグメンテーション、6Dオブジェクトのポーズ推定など、幅広いタスクにわたる最先端のパフォーマンスを一貫して達成する。
論文 参考訳(メタデータ) (2025-08-15T06:43:51Z) - Object-level Scene Deocclusion [92.39886029550286]
オブジェクトレベルのシーン・デクルージョンのためのPArallel可視・コミュールト拡散フレームワークPACOを提案する。
PACOをトレーニングするために、500kサンプルの大規模なデータセットを作成し、自己教師付き学習を可能にします。
COCOAと様々な現実世界のシーンの実験では、PACOがシーンの排除に優れた能力を示し、芸術の状態をはるかに上回っている。
論文 参考訳(メタデータ) (2024-06-11T20:34:10Z) - UGMAE: A Unified Framework for Graph Masked Autoencoders [67.75493040186859]
グラフマスク付きオートエンコーダのための統一フレームワークであるUGMAEを提案する。
まず,ノードの特異性を考慮した適応型特徴マスク生成器を開発した。
次に,階層型構造再構成と特徴再構成を併用し,総合的なグラフ情報を取得する。
論文 参考訳(メタデータ) (2024-02-12T19:39:26Z) - Feature Completion Transformer for Occluded Person Re-identification [25.159974510754992]
咬合者の再同定(Re-ID)は,咬合者の破壊による課題である。
特徴空間に隠された部分の意味情報を暗黙的に補完する特徴補完変換器(FCFormer)を提案する。
FCFormerは優れたパフォーマンスを実現し、隠蔽されたデータセットに対してかなりのマージンで最先端の手法を上回ります。
論文 参考訳(メタデータ) (2023-03-03T01:12:57Z) - Dynamic Feature Pruning and Consolidation for Occluded Person
Re-Identification [21.006680330530852]
本研究では, 明示的な人間の構造解析を回避するために, 機能解析・統合(FPC)フレームワークを提案する。
フレームワークは主にスパースエンコーダ、マルチビュー機能mathcingモジュール、フィーチャーコンソリデーションデコーダで構成されている。
提案手法は,Occluded-Dukeデータセットにおいて,少なくとも8.6% mAPと6.0% Rank-1の精度で最新結果より優れる。
論文 参考訳(メタデータ) (2022-11-27T06:18:40Z) - Unveiling the Potential of Structure-Preserving for Weakly Supervised
Object Localization [71.79436685992128]
本稿では,WSOLの畳み込み機能に組み込まれた構造情報を完全に活用するための2段階構造保存アクティベーション(SPA)を提案する。
第1段階では、分類ネットワークによって引き起こされる構造ミス問題を軽減するために制限アクティベーションモジュール(ram)が設計されている。
第2段階では, 自己相関マップ生成(SCG)モジュールと呼ばれるプロセス後アプローチを提案し, 構造保存ローカライゼーションマップを得る。
論文 参考訳(メタデータ) (2021-03-08T03:04:14Z) - Self-Supervised Scene De-occlusion [186.89979151728636]
本稿では,隠蔽対象の隠蔽順序を復元し,隠蔽対象の見えない部分を完成させることを目的としたシーン非隠蔽問題について検討する。
そこで本研究では,隠されたシーン構造を監視対象として指示やアモーダルアノテーションを使わずに復元する,新規で統一的なフレームワークを用いて,この問題に対処する試みを行う。
そこで,PCNet-M と PCNet-C をベースとして,プログレッシブ・オーダリング・リカバリ,アモーダル・コンプリーメント,コンテント・コンプリートを通じてシーン・デオクルージョンを実現する新しい推論手法を考案した。
論文 参考訳(メタデータ) (2020-04-06T16:31:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。