論文の概要: CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting
- arxiv url: http://arxiv.org/abs/2510.23785v1
- Date: Mon, 27 Oct 2025 19:16:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-29 15:35:36.4265
- Title: CountFormer: A Transformer Framework for Learning Visual Repetition and Structure in Class-Agnostic Object Counting
- Title(参考訳): CountFormer: クラス非依存のオブジェクトカウントにおける視覚的反復と構造学習のためのトランスフォーマーフレームワーク
- Authors: Md Tanvir Hossain, Akif Islam, Mohd Ruhul Ameen,
- Abstract要約: 人間は、クラスアイデンティティに頼るのではなく、視覚的反復と構造的関係を知覚することで、多種多様な物体を努力せずに数えることができる。
本研究では,クラスに依存しないオブジェクトカウントのための繰り返しと構造的コヒーレンスを認識することを学ぶトランスフォーマーベースのフレームワークであるCountFormerを紹介する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Humans can effortlessly count diverse objects by perceiving visual repetition and structural relationships rather than relying on class identity. However, most existing counting models fail to replicate this ability; they often miscount when objects exhibit complex shapes, internal symmetry, or overlapping components. In this work, we introduce CountFormer, a transformer-based framework that learns to recognize repetition and structural coherence for class-agnostic object counting. Built upon the CounTR architecture, our model replaces its visual encoder with the self-supervised foundation model DINOv2, which produces richer and spatially consistent feature representations. We further incorporate positional embedding fusion to preserve geometric relationships before decoding these features into density maps through a lightweight convolutional decoder. Evaluated on the FSC-147 dataset, our model achieves performance comparable to current state-of-the-art methods while demonstrating superior accuracy on structurally intricate or densely packed scenes. Our findings indicate that integrating foundation models such as DINOv2 enables counting systems to approach human-like structural perception, advancing toward a truly general and exemplar-free counting paradigm.
- Abstract(参考訳): 人間は、クラスアイデンティティに頼るのではなく、視覚的反復と構造的関係を知覚することで、多種多様な物体を努力せずに数えることができる。
しかし、既存の数え上げモデルは、この能力の再現に失敗し、オブジェクトが複雑な形状、内部対称性、または重なり合うコンポーネントを示す場合、しばしば誤算する。
本研究では,クラスに依存しないオブジェクトカウントのための繰り返しと構造的コヒーレンスを認識することを学ぶトランスフォーマーベースのフレームワークであるCountFormerを紹介する。
CounTRアーキテクチャに基づいて構築された我々のモデルは、その視覚エンコーダを、よりリッチで空間的に一貫した特徴表現を生成する自己教師付き基礎モデルDINOv2に置き換える。
さらに,これらの特徴を,軽量畳み込みデコーダを通じて密度マップに復号する前に,幾何的関係を保つために位置埋め込み融合を組み込む。
FSC-147データセットを評価した結果,本モデルでは現在の最先端手法に匹敵する性能を達成し,構造的に複雑なシーンや密封されたシーンに優れた精度を示すことができた。
本研究は,DINOv2のような基礎モデルを統合することで,人間のような構造認識に近づき,真に汎用的で非定型な数え上げパラダイムへと進むことができることを示す。
関連論文リスト
- Factuality Matters: When Image Generation and Editing Meet Structured Visuals [46.627460447235855]
我々は、13万の高品質な構造化画像対からなる大規模データセットを構築した。
FLUX.1 KontextとVLMを統合する統一モデルを訓練する。
3段階のトレーニングカリキュラムは、プログレッシブな特徴アライメント、知識の注入、推論による生成を可能にする。
論文 参考訳(メタデータ) (2025-10-06T17:56:55Z) - Structural Similarity-Inspired Unfolding for Lightweight Image Super-Resolution [88.20464308588889]
効率的な画像SRのための構造類似インスパイアド・アンフォールディング(SSIU)法を提案する。
この方法は、構造的類似性に制約されたSR最適化関数の展開によって設計される。
我々のモデルは現在の最先端モデルより優れており、パラメータ数が低く、メモリ消費が減少している。
論文 参考訳(メタデータ) (2025-06-13T14:29:40Z) - Detection Based Part-level Articulated Object Reconstruction from Single RGBD Image [52.11275397911693]
本稿では,1枚のRGBD画像から複数の人工関節オブジェクトを再構成する,エンドツーエンドで訓練可能なクロスカテゴリ手法を提案する。
私たちは、あらかじめ定義された部分数で人工的なオブジェクトに焦点をあて、インスタンスレベルの潜在空間を学習することに依存する以前の作業から離れています。
提案手法は, 従来の作業では処理できない様々な構成された複数インスタンスの再構築に成功し, 形状再構成や運動学推定において, 先行の作業よりも優れていた。
論文 参考訳(メタデータ) (2025-04-04T05:08:04Z) - The Effectiveness of a Simplified Model Structure for Crowd Counting [11.640020969258101]
本稿では,単純な構造のみを用いて,高性能なクラウドカウントモデルを構築する方法について論じる。
本稿では,バックボーンネットワークとマルチスケール機能融合構造のみからなる,そのシンプルで効率的な構造を特徴とするFuss-Free Network(FFNet)を提案する。
提案するクラウドカウントモデルは,広く使用されている4つの公開データセットに対してトレーニングおよび評価を行い,既存の複雑なモデルに匹敵する精度を実現する。
論文 参考訳(メタデータ) (2024-04-11T15:42:53Z) - CounTR: Transformer-based Generalised Visual Counting [94.54725247039441]
我々は任意の意味圏からオブジェクト数を数える計算モデルを開発し、任意の数の「例」を用いて計算する。
FSC-147のような大規模カウントベンチマークの徹底的なアブレーション研究を行い、ゼロおよび少数ショット設定の両方で最先端の性能を示す。
論文 参考訳(メタデータ) (2022-08-29T17:02:45Z) - Complex-Valued Autoencoders for Object Discovery [62.26260974933819]
本稿では,オブジェクト中心表現に対する分散アプローチとして,複合オートエンコーダを提案する。
このシンプルで効率的なアプローチは、単純なマルチオブジェクトデータセット上の等価な実数値オートエンコーダよりも、より良い再構成性能を実現することを示す。
また、2つのデータセット上のSlotAttentionモデルと競合しないオブジェクト発見性能を実現し、SlotAttentionが失敗する第3のデータセットでオブジェクトをアンタングルする。
論文 参考訳(メタデータ) (2022-04-05T09:25:28Z) - SetVAE: Learning Hierarchical Composition for Generative Modeling of
Set-Structured Data [27.274328701618]
集合の階層的変分オートエンコーダであるSetVAEを提案する。
セットエンコーディングの最近の進歩に動機づけられて、我々は最初にセットを分割し、元のカーディナリティにパーティションを投影する注意深いモジュールの上にSetVAEを構築します。
我々は,本モデルが集合のサイズを示さずに一般化し,監督なしに興味深い部分集合関係を学習できることを実証する。
論文 参考訳(メタデータ) (2021-03-29T14:01:18Z) - Look-into-Object: Self-supervised Structure Modeling for Object
Recognition [71.68524003173219]
我々は,自己スーパービジョンを取り入れた「対象」(具体的かつ内在的に対象構造をモデル化する)を提案する。
認識バックボーンは、より堅牢な表現学習のために大幅に拡張可能であることを示す。
提案手法は汎用オブジェクト認識(ImageNet)や細粒度オブジェクト認識タスク(CUB, Cars, Aircraft)など,多数のベンチマークにおいて大きなパフォーマンス向上を実現している。
論文 参考訳(メタデータ) (2020-03-31T12:22:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。