論文の概要: Hierarchical Compact Clustering Attention (COCA) for Unsupervised Object-Centric Learning
- arxiv url: http://arxiv.org/abs/2505.02071v1
- Date: Sun, 04 May 2025 11:42:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.410597
- Title: Hierarchical Compact Clustering Attention (COCA) for Unsupervised Object-Centric Learning
- Title(参考訳): 教師なし学習のための階層型コンパクトクラスタリング注意(COCA)
- Authors: Can Küçüksözen, Yücel Yemez,
- Abstract要約: COCAは、多目的シーンからオブジェクト中心の表現を抽出できる注目ベースのクラスタリングモジュールである。
広く採用されている6つのデータセット上でCOCA-Netのセグメンテーション性能を示す。
- 参考スコア(独自算出の注目度): 0.48342038441006796
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We propose the Compact Clustering Attention (COCA) layer, an effective building block that introduces a hierarchical strategy for object-centric representation learning, while solving the unsupervised object discovery task on single images. COCA is an attention-based clustering module capable of extracting object-centric representations from multi-object scenes, when cascaded into a bottom-up hierarchical network architecture, referred to as COCA-Net. At its core, COCA utilizes a novel clustering algorithm that leverages the physical concept of compactness, to highlight distinct object centroids in a scene, providing a spatial inductive bias. Thanks to this strategy, COCA-Net generates high-quality segmentation masks on both the decoder side and, notably, the encoder side of its pipeline. Additionally, COCA-Net is not bound by a predetermined number of object masks that it generates and handles the segmentation of background elements better than its competitors. We demonstrate COCA-Net's segmentation performance on six widely adopted datasets, achieving superior or competitive results against the state-of-the-art models across nine different evaluation metrics.
- Abstract(参考訳): 本研究では,オブジェクト中心表現学習の階層的戦略を導入し,教師なしのオブジェクト発見タスクを単一画像上で解決する,効果的なビルディングブロックであるCOCA層を提案する。
COCAは、COCA-Netと呼ばれるボトムアップ階層型ネットワークアーキテクチャにカスケードされた場合、多目的シーンからオブジェクト中心の表現を抽出できる注目ベースのクラスタリングモジュールである。
COCAは、コンパクトさという物理的な概念を生かした新しいクラスタリングアルゴリズムを用いて、シーン内の異なる物体セントロイドをハイライトし、空間的帰納バイアスを与える。
この戦略により、COCA-Netはデコーダ側と、特にパイプラインのエンコーダ側の両方で高品質なセグメンテーションマスクを生成する。
さらに、COCA-Netは、コンペティターよりも背景要素のセグメンテーションをより良く生成し、処理する、所定の数のオブジェクトマスクに縛られない。
我々は,COCA-Netのセグメンテーション性能を6つの広く採用されているデータセットで実証し,9つの評価指標の最先端モデルに対して,優れた,あるいは競争的な結果を得た。
関連論文リスト
- Deep Structure and Attention Aware Subspace Clustering [29.967881186297582]
本稿では,新しいサブスペースクラスタリング(DSASC)を提案する。
視覚変換器を用いて特徴を抽出し,抽出した特徴を2つの部分,構造特徴,内容特徴に分割する。
我々の手法は最先端の手法を著しく上回っている。
論文 参考訳(メタデータ) (2023-12-25T01:19:47Z) - COMNet: Co-Occurrent Matching for Weakly Supervised Semantic
Segmentation [13.244183864948848]
我々は,CAMの品質を向上し,オブジェクトの全体に対して注意を払うためにネットワークを強制する,新しいコオカレントマッチングネットワーク(COMNet)を提案する。
具体的には、共通クラスを含むペア画像のマッチングを行い、対応する領域を強化し、単一の画像上にマッチングを構築し、対象領域を横断する意味的特徴を伝達する。
The experiment on the Pascal VOC 2012 and MS-COCO datasets shows our network can effective boost the performance of the baseline model and a new-of-the-art performance。
論文 参考訳(メタデータ) (2023-09-29T03:55:24Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Unified Mask Embedding and Correspondence Learning for Self-Supervised
Video Segmentation [76.40565872257709]
我々は、局所的な識別的特徴学習のためのフレーム間密度対応を同時にモデル化する統合フレームワークを開発する。
ラベルなしビデオから直接マスク誘導シーケンシャルセグメンテーションを実行することができる。
我々のアルゴリズムは、2つの標準ベンチマーク(DAVIS17とYouTube-VOS)に最先端をセットする。
論文 参考訳(メタデータ) (2023-03-17T16:23:36Z) - Image as Set of Points [60.30495338399321]
コンテキストクラスタ(CoC)は、イメージを非組織的なポイントの集合と見なし、単純化されたクラスタリングアルゴリズムによって特徴を抽出する。
われわれのCoCは畳み込みと無注意で、空間的相互作用のためのクラスタリングアルゴリズムにのみ依存している。
論文 参考訳(メタデータ) (2023-03-02T18:56:39Z) - DeepCut: Unsupervised Segmentation using Graph Neural Networks
Clustering [6.447863458841379]
本研究では,従来のクラスタリング手法を置き換える軽量グラフニューラルネットワーク(GNN)を提案する。
既存の手法とは異なり、GNNはローカル画像特徴と生特徴とのペアワイズ親和性の両方を入力として取ります。
画像セグメンテーションGNNを訓練するための自己教師付き損失関数として,古典的クラスタリングの目的を定式化する方法を実証する。
論文 参考訳(メタデータ) (2022-12-12T12:31:46Z) - Beyond the Prototype: Divide-and-conquer Proxies for Few-shot
Segmentation [63.910211095033596]
少ないショットのセグメンテーションは、少数の濃密なラベル付けされたサンプルのみを与えられた、目に見えないクラスオブジェクトをセグメンテーションすることを目的としている。
分割・分散の精神において, 単純かつ多目的な枠組みを提案する。
提案手法は、DCP(disvision-and-conquer proxies)と呼ばれるもので、適切な信頼性のある情報の開発を可能にする。
論文 参考訳(メタデータ) (2022-04-21T06:21:14Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - A Framework for Joint Unsupervised Learning of Cluster-Aware Embedding
for Heterogeneous Networks [6.900303913555705]
Heterogeneous Information Network (HIN) は、HINの構造と意味を保存しているHINノードの低次元投影を指す。
本稿では,クラスタ埋め込みとクラスタ認識HIN埋め込みの併用学習を提案する。
論文 参考訳(メタデータ) (2021-08-09T11:36:36Z) - CoKe: Localized Contrastive Learning for Robust Keypoint Detection [24.167397429511915]
特徴空間における3種類の距離を最適化するためにキーポイントカーネルを選択することができることを示す。
我々は、教師付きコントラスト学習を含むフレームワーク内で、この最適化プロセスを定式化する。
CoKeは、すべてのキーポイントを論理的に共同で表現するアプローチと比較して、最先端の結果を達成する。
論文 参考訳(メタデータ) (2020-09-29T16:00:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。