論文の概要: HEAP: Unsupervised Object Discovery and Localization with Contrastive
Grouping
- arxiv url: http://arxiv.org/abs/2312.17492v2
- Date: Thu, 4 Jan 2024 05:57:15 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-05 16:44:18.312306
- Title: HEAP: Unsupervised Object Discovery and Localization with Contrastive
Grouping
- Title(参考訳): HEAP:Contrastive Groupingによる教師なしオブジェクト発見とローカライゼーション
- Authors: Xin Zhang, Jinheng Xie, Yuan Yuan, Michael Bi Mi, Robby T. Tan
- Abstract要約: 教師なしオブジェクトの発見と位置決めは、監督なしで画像内のオブジェクトを検出し、セグメント化することを目的としている。
近年の取り組みは、自己監督型トランスフォーマー機能を利用して、有能な前景物体を識別する顕著な可能性を実証している。
これらの問題に対処するために、Herarchical mErging framework via contrAstive grouPing (HEAP) を紹介する。
- 参考スコア(独自算出の注目度): 29.678756772610797
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unsupervised object discovery and localization aims to detect or segment
objects in an image without any supervision. Recent efforts have demonstrated a
notable potential to identify salient foreground objects by utilizing
self-supervised transformer features. However, their scopes only build upon
patch-level features within an image, neglecting region/image-level and
cross-image relationships at a broader scale. Moreover, these methods cannot
differentiate various semantics from multiple instances. To address these
problems, we introduce Hierarchical mErging framework via contrAstive grouPing
(HEAP). Specifically, a novel lightweight head with cross-attention mechanism
is designed to adaptively group intra-image patches into semantically coherent
regions based on correlation among self-supervised features. Further, to ensure
the distinguishability among various regions, we introduce a region-level
contrastive clustering loss to pull closer similar regions across images. Also,
an image-level contrastive loss is present to push foreground and background
representations apart, with which foreground objects and background are
accordingly discovered. HEAP facilitates efficient hierarchical image
decomposition, which contributes to more accurate object discovery while also
enabling differentiation among objects of various classes. Extensive
experimental results on semantic segmentation retrieval, unsupervised object
discovery, and saliency detection tasks demonstrate that HEAP achieves
state-of-the-art performance.
- Abstract(参考訳): 教師なしオブジェクト発見とローカライゼーション(unsupervised object discovery and localization)は、監視なしで画像内のオブジェクトを検出または分割することを目的としている。
近年の取り組みは、自己監督型トランスフォーマー機能を利用して、有能な前景物体を識別する顕著な可能性を実証している。
しかし、そのスコープはイメージ内のパッチレベルの機能のみの上に構築され、領域/イメージレベルとクロスイメージの関係をより広いスケールで無視する。
さらに、これらの方法は複数のインスタンスと様々なセマンティクスを区別できない。
これらの問題に対処するため,Herarchical mErging framework via contrAstive grouPing (HEAP)を提案する。
具体的には,自己教師付き特徴間の相関に基づいて画像内パッチを意味的にコヒーレントな領域に適応的にグループ化するクロスアテンション機構を備えた新しい軽量ヘッドを提案する。
さらに,各領域間の識別性を確保するため,画像にまたがる類似領域を絞り込むために,領域レベルのコントラストクラスタリング損失を導入する。
また、フォアグラウンドと背景表現を分離するために画像レベルのコントラスト損失が存在し、それによってフォアグラウンドオブジェクトと背景が発見される。
HEAPは効率的な階層的な画像分解を容易にし、より正確なオブジェクト発見に寄与すると同時に、様々なクラスのオブジェクトの区別を可能にする。
セマンティックセグメンテーション検索、教師なしオブジェクト発見、およびサリエンシ検出タスクに関する大規模な実験結果は、HEAPが最先端のパフォーマンスを達成することを示す。
関連論文リスト
- Pattern Integration and Enhancement Vision Transformer for Self-Supervised Learning in Remote Sensing [11.626527403157922]
本稿では、リモートセンシング画像のための新しい自己教師型学習フレームワークであるPattern Integration and Enhancement Vision Transformer(PIEViT)を紹介する。
PIEViTは内部パッチ機能の表現を強化し、既存の自己管理ベースラインよりも大幅に改善されている。
オブジェクト検出、土地被覆分類、変更検出において優れた結果が得られ、リモートセンシング画像解釈タスクの堅牢性、一般化、転送性などが評価される。
論文 参考訳(メタデータ) (2024-11-09T07:06:31Z) - Improving Object Detection via Local-global Contrastive Learning [27.660633883387753]
本稿では,クロスドメインオブジェクト検出を対象とする画像から画像への変換手法を提案する。
ローカル・グローバル情報と対比することでオブジェクトを表現することを学ぶ。
これにより、ドメインシフトの下で、パフォーマンス検出(Performant detection)の取得という、未調査の課題の調査が可能になる。
論文 参考訳(メタデータ) (2024-10-07T14:18:32Z) - Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - EAGLE: Eigen Aggregation Learning for Object-Centric Unsupervised Semantic Segmentation [5.476136494434766]
意味的類似性行列から派生した固有ベイズを通して意味的および構造的手がかりを提供する手法であるEiCueを紹介する。
オブジェクトレベルの表現を画像内および画像間の整合性で学習する。
COCO-Stuff、Cityscapes、Potsdam-3データセットの実験では、最先端のUSSの結果が示されている。
論文 参考訳(メタデータ) (2024-03-03T11:24:16Z) - ZoomNeXt: A Unified Collaborative Pyramid Network for Camouflaged Object Detection [70.11264880907652]
最近のオブジェクト(COD)は、現実のシナリオでは極めて複雑で難しい、視覚的にブレンドされたオブジェクトを周囲に分割しようと試みている。
本研究では,不明瞭な画像を観察したり,ズームインしたりアウトしたりする際の人間の行動を模倣する,効果的な統合協調ピラミッドネットワークを提案する。
我々のフレームワークは、画像とビデオのCODベンチマークにおいて、既存の最先端の手法を一貫して上回っている。
論文 参考訳(メタデータ) (2023-10-31T06:11:23Z) - Weakly-supervised Contrastive Learning for Unsupervised Object Discovery [52.696041556640516]
ジェネリックな方法でオブジェクトを発見できるため、教師なしのオブジェクト発見は有望である。
画像から高レベルな意味的特徴を抽出する意味誘導型自己教師学習モデルを設計する。
オブジェクト領域のローカライズのための主成分分析(PCA)を導入する。
論文 参考訳(メタデータ) (2023-07-07T04:03:48Z) - Instance-aware Remote Sensing Image Captioning with Cross-hierarchy
Attention [11.23821696220285]
空間的注意は、リモートセンシング画像キャプションのパフォーマンスを高めるための簡単なアプローチです。
インスタンス認識と階層横断に注目したリモートセンシング画像キャプションジェネレータを提案する。
論文 参考訳(メタデータ) (2021-05-11T12:59:07Z) - Self-supervised Segmentation via Background Inpainting [96.10971980098196]
移動可能なカメラで撮影された単一の画像で、自己教師付き検出とセグメンテーションのアプローチを導入する。
我々は、提案に基づくセグメンテーションネットワークのトレーニングに利用する自己教師付き損失関数を利用する。
本手法は,標準ベンチマークから視覚的に切り離された画像の人間の検出とセグメント化に応用し,既存の自己監督手法より優れていることを示す。
論文 参考訳(メタデータ) (2020-11-11T08:34:40Z) - Mining Cross-Image Semantics for Weakly Supervised Semantic Segmentation [128.03739769844736]
2つのニューラルコアテンションを分類器に組み込んで、画像間のセマンティックな類似点と相違点をキャプチャする。
オブジェクトパターン学習の強化に加えて、コアテンションは他の関連する画像からのコンテキストを活用して、ローカライズマップの推論を改善することができる。
提案アルゴリズムは,これらすべての設定に対して新たな最先端性を設定し,その有効性と一般化性を示す。
論文 参考訳(メタデータ) (2020-07-03T21:53:46Z) - Cross-domain Object Detection through Coarse-to-Fine Feature Adaptation [62.29076080124199]
本稿では,クロスドメインオブジェクト検出のための特徴適応手法を提案する。
粗粒度では、アテンション機構を採用して前景領域を抽出し、その辺縁分布に応じて整列する。
粒度の細かい段階では、同じカテゴリのグローバルプロトタイプと異なるドメインとの距離を最小化することにより、前景の条件分布アライメントを行う。
論文 参考訳(メタデータ) (2020-03-23T13:40:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。