論文の概要: Multiscale Vision Transformer With Deep Clustering-Guided Refinement for
Weakly Supervised Object Localization
- arxiv url: http://arxiv.org/abs/2312.09584v1
- Date: Fri, 15 Dec 2023 07:46:44 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-18 16:51:01.485731
- Title: Multiscale Vision Transformer With Deep Clustering-Guided Refinement for
Weakly Supervised Object Localization
- Title(参考訳): 深層クラスタリング制御による弱教師付き物体定位のためのマルチスケールビジョントランスフォーマ
- Authors: David Kim, Sinhae Cha, Byeongkeun Kang
- Abstract要約: この研究は、弱教師付きオブジェクトローカライゼーションの課題に対処する。
様々なスケールでパッチ埋め込みを抽出する複数のオブジェクトローカライゼーション変換器を備える。
本稿では,局所化精度をさらに高めるディープクラスタリング誘導改良法を提案する。
- 参考スコア(独自算出の注目度): 4.300577895958228
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This work addresses the task of weakly-supervised object localization. The
goal is to learn object localization using only image-level class labels, which
are much easier to obtain compared to bounding box annotations. This task is
important because it reduces the need for labor-intensive ground-truth
annotations. However, methods for object localization trained using weak
supervision often suffer from limited accuracy in localization. To address this
challenge and enhance localization accuracy, we propose a multiscale object
localization transformer (MOLT). It comprises multiple object localization
transformers that extract patch embeddings across various scales. Moreover, we
introduce a deep clustering-guided refinement method that further enhances
localization accuracy by utilizing separately extracted image segments. These
segments are obtained by clustering pixels using convolutional neural networks.
Finally, we demonstrate the effectiveness of our proposed method by conducting
experiments on the publicly available ILSVRC-2012 dataset.
- Abstract(参考訳): この研究は、弱教師付きオブジェクトローカライゼーションの課題に対処する。
目標は、イメージレベルのクラスラベルのみを使用してオブジェクトのローカライゼーションを学ぶことだ。
このタスクは、労働集約的な地頭アノテーションの必要性を減らすために重要である。
しかしながら、弱い監督を用いて訓練されたオブジェクトのローカライゼーションの方法は、しばしばローカライゼーションの精度の低下に苦しむ。
この課題に対処し、ローカライズ精度を向上させるために、マルチスケールオブジェクトローカライゼーショントランス (MOLT) を提案する。
様々なスケールでパッチ埋め込みを抽出する複数のオブジェクトローカライゼーション変換器を備える。
さらに,別々に抽出した画像セグメントを利用して局所化精度を高めるディープクラスタリング誘導改良手法を提案する。
これらのセグメントは畳み込みニューラルネットワークを用いてピクセルをクラスタリングすることで得られる。
最後に, 提案手法の有効性について, ILSVRC-2012データセットを用いて実験を行った。
関連論文リスト
- Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - Rethinking the Localization in Weakly Supervised Object Localization [51.29084037301646]
弱教師付きオブジェクトローカライゼーション(WSOL)は、コンピュータビジョンにおいて最も人気があり、困難なタスクの1つである。
最近、WSOLを2つの部分(クラスに依存しないオブジェクトのローカライゼーションとオブジェクトの分類)に分割することが、このタスクの最先端のパイプラインになっている。
本研究では,SCRを複数物体の局所化のためのバイナリクラス検出器(BCD)に置き換えることを提案する。
論文 参考訳(メタデータ) (2023-08-11T14:38:51Z) - MOST: Multiple Object localization with Self-supervised Transformers for
object discovery [97.47075050779085]
自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
論文 参考訳(メタデータ) (2023-04-11T17:57:27Z) - Knowledge Combination to Learn Rotated Detection Without Rotated
Annotation [53.439096583978504]
回転バウンディングボックスは、伸長したオブジェクトの出力あいまいさを劇的に減少させる。
この効果にもかかわらず、回転検出器は広く使われていない。
本稿では,モデルが正確な回転ボックスを予測できるフレームワークを提案する。
論文 参考訳(メタデータ) (2023-04-05T03:07:36Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Constrained Sampling for Class-Agnostic Weakly Supervised Object
Localization [10.542859578763068]
自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。
本稿では,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,弱い教師付きオブジェクトローカライゼーションモデルをトレーニングする擬似ラベルを取得することを提案する。
論文 参考訳(メタデータ) (2022-09-09T19:58:38Z) - Discriminative Sampling of Proposals in Self-Supervised Transformers for
Weakly Supervised Object Localization [10.542859578763068]
自己監督型視覚変換器は、画像内のオブジェクトの正確なローカライゼーションマップを生成することができる。
本稿では,異なるトランスフォーマーヘッドが生成する複数のマップを利用して,弱い教師付きオブジェクトローカライゼーションモデルをトレーニングする擬似ラベルを取得することを提案する。
論文 参考訳(メタデータ) (2022-09-09T18:33:23Z) - Weakly Supervised Object Localization via Transformer with Implicit
Spatial Calibration [20.322494442959762]
Wakly Supervised Object Localization (WSOL) は、実際のアプリケーションでアノテーションのコストが低いため、多くの注目を集めている。
パッチトークンとそれらの空間関係のセマンティックな類似性を統合拡散モデルに組み込んだ,正確なWSOLのためのシンプルで効果的な空間モジュール(SCM)を提案する。
SCMはTransformerの外部モジュールとして設計されており、推論中に除去して計算コストを削減することができる。
論文 参考訳(メタデータ) (2022-07-21T12:37:15Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。