論文の概要: MOST: Multiple Object localization with Self-supervised Transformers for
object discovery
- arxiv url: http://arxiv.org/abs/2304.05387v2
- Date: Sat, 26 Aug 2023 23:25:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-30 00:03:20.003469
- Title: MOST: Multiple Object localization with Self-supervised Transformers for
object discovery
- Title(参考訳): MOST: オブジェクト発見のための自己教師型トランスフォーマを用いた複数オブジェクトローカライゼーション
- Authors: Sai Saketh Rambhatla, Ishan Misra, Rama Chellappa, Abhinav Shrivastava
- Abstract要約: 自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
- 参考スコア(独自算出の注目度): 97.47075050779085
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We tackle the challenging task of unsupervised object localization in this
work. Recently, transformers trained with self-supervised learning have been
shown to exhibit object localization properties without being trained for this
task. In this work, we present Multiple Object localization with
Self-supervised Transformers (MOST) that uses features of transformers trained
using self-supervised learning to localize multiple objects in real world
images. MOST analyzes the similarity maps of the features using box counting; a
fractal analysis tool to identify tokens lying on foreground patches. The
identified tokens are then clustered together, and tokens of each cluster are
used to generate bounding boxes on foreground regions. Unlike recent
state-of-the-art object localization methods, MOST can localize multiple
objects per image and outperforms SOTA algorithms on several object
localization and discovery benchmarks on PASCAL-VOC 07, 12 and COCO20k
datasets. Additionally, we show that MOST can be used for self-supervised
pre-training of object detectors, and yields consistent improvements on fully,
semi-supervised object detection and unsupervised region proposal generation.
- Abstract(参考訳): 本研究における教師なしオブジェクトローカライゼーションの課題に取り組む。
近年、自己教師付き学習で訓練されたトランスフォーマーは、このタスクのために訓練されることなく、オブジェクトのローカライゼーション特性を示すことが示されている。
本研究では,自己教師付き学習を用いて訓練されたトランスフォーマの機能を実世界画像内の複数の物体にローカライズする,自己教師付きトランスフォーマ (most) を用いた複数のオブジェクトローカライズを提案する。
MOSTはボックスカウントを使って機能の類似性マップを分析し、前景のパッチに横たわるトークンを識別するフラクタル解析ツールである。
識別されたトークンはクラスタ化され、各クラスタのトークンは前景の領域にバウンディングボックスを生成するために使用される。
最近の最先端のオブジェクトローカライズ方法とは異なり、MOSTは画像ごとに複数のオブジェクトをローカライズし、PASCAL-VOC 07、12、COCO20kデータセット上で複数のオブジェクトローカライズおよび発見ベンチマークでSOTAアルゴリズムより優れている。
さらに,オブジェクト検出器の自己教師付き事前学習にほとんどが利用可能であり,完全で半教師付きオブジェクト検出と教師なし領域提案生成において一貫した改善が得られている。
関連論文リスト
- Other Tokens Matter: Exploring Global and Local Features of Vision Transformers for Object Re-Identification [63.147482497821166]
我々はまず,ViTのグローバルおよびローカルな特徴の影響を探求し,高性能オブジェクトRe-IDのための新しいグローバルローカ変換器(GLTrans)を提案する。
提案手法は,4つのオブジェクトRe-IDベンチマークにおいて優れた性能を実現する。
論文 参考訳(メタデータ) (2024-04-23T12:42:07Z) - Multiscale Vision Transformer With Deep Clustering-Guided Refinement for
Weakly Supervised Object Localization [4.300577895958228]
この研究は、弱教師付きオブジェクトローカライゼーションの課題に対処する。
様々なスケールでパッチ埋め込みを抽出する複数のオブジェクトローカライゼーション変換器を備える。
本稿では,局所化精度をさらに高めるディープクラスタリング誘導改良法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:46:44Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - ECEA: Extensible Co-Existing Attention for Few-Shot Object Detection [52.16237548064387]
Few-shot Object Detection (FSOD) は、非常に少数のアノテーション付きサンプルからオブジェクトを識別する。
近年のFSOD法の多くは、2段階の学習パラダイムを適用しており、このパラダイムは豊富なベースクラスから学んだ知識を、グローバルな特徴を学習することで、数発の検知を補助する。
本研究では,局所的な部分に応じて大域的オブジェクトを推論するための拡張可能共存注意(ECEA)モジュールを提案する。
論文 参考訳(メタデータ) (2023-09-15T06:55:43Z) - Constrained Sampling for Class-Agnostic Weakly Supervised Object
Localization [10.542859578763068]
自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。
本稿では,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,弱い教師付きオブジェクトローカライゼーションモデルをトレーニングする擬似ラベルを取得することを提案する。
論文 参考訳(メタデータ) (2022-09-09T19:58:38Z) - Discriminative Sampling of Proposals in Self-Supervised Transformers for
Weakly Supervised Object Localization [10.542859578763068]
自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。
本稿では,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,弱い教師付きオブジェクトローカライゼーションモデルをトレーニングする擬似ラベルを取得することを提案する。
論文 参考訳(メタデータ) (2022-09-09T18:33:23Z) - Weakly Supervised Object Localization as Domain Adaption [19.854125742336688]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルの分類マスクの監督のみでオブジェクトをローカライズすることに焦点を当てる。
従来のWSOL手法の多くは、MIL(Multi-instance Learning)機構を用いて分類構造に基づいてオブジェクトをローカライズする分類活性化マップ(CAM)に従っている。
この研究は、WSOLをドメイン適応(DA)タスクとしてモデル化する、新しい視点を提供する。そこでは、ソース/イメージドメインでトレーニングされたスコア推定器がターゲット/ピクセルドメイン上でテストされ、オブジェクトを見つける。
論文 参考訳(メタデータ) (2022-03-03T13:50:22Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z) - Multi-modal Transformers Excel at Class-agnostic Object Detection [105.10403103027306]
既存の手法では、人間の理解可能な意味論によって支配されるトップダウンの監視信号が欠落していると論じる。
マルチスケール特徴処理と変形可能な自己アテンションを用いた効率よく柔軟なMViTアーキテクチャを開発した。
多様なアプリケーションにおけるMViT提案の重要性を示す。
論文 参考訳(メタデータ) (2021-11-22T18:59:29Z) - Robust Object Detection via Instance-Level Temporal Cycle Confusion [89.1027433760578]
物体検出器の分布外一般化を改善するための補助的自己監視タスクの有効性を検討する。
最大エントロピーの原理に触発されて,新しい自己監督タスクであるインスタンスレベル時間サイクル混乱(cycconf)を導入する。
それぞれのオブジェクトに対して、タスクは、ビデオ内の隣接するフレームで最も異なるオブジェクトの提案を見つけ、自己スーパービジョンのために自分自身にサイクルバックすることです。
論文 参考訳(メタデータ) (2021-04-16T21:35:08Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。