論文の概要: Weakly Supervised Object Localization via Transformer with Implicit
Spatial Calibration
- arxiv url: http://arxiv.org/abs/2207.10447v1
- Date: Thu, 21 Jul 2022 12:37:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-07-22 13:14:03.196882
- Title: Weakly Supervised Object Localization via Transformer with Implicit
Spatial Calibration
- Title(参考訳): 空間校正を伴わない変圧器による物体位置推定
- Authors: Haotian Bai and Ruimao Zhang and Jiong Wang and Xiang Wan
- Abstract要約: Wakly Supervised Object Localization (WSOL) は、実際のアプリケーションでアノテーションのコストが低いため、多くの注目を集めている。
パッチトークンとそれらの空間関係のセマンティックな類似性を統合拡散モデルに組み込んだ,正確なWSOLのためのシンプルで効果的な空間モジュール(SCM)を提案する。
SCMはTransformerの外部モジュールとして設計されており、推論中に除去して計算コストを削減することができる。
- 参考スコア(独自算出の注目度): 20.322494442959762
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Weakly Supervised Object Localization (WSOL), which aims to localize objects
by only using image-level labels, has attracted much attention because of its
low annotation cost in real applications. Recent studies leverage the advantage
of self-attention in visual Transformer for long-range dependency to re-active
semantic regions, aiming to avoid partial activation in traditional class
activation mapping (CAM). However, the long-range modeling in Transformer
neglects the inherent spatial coherence of the object, and it usually diffuses
the semantic-aware regions far from the object boundary, making localization
results significantly larger or far smaller. To address such an issue, we
introduce a simple yet effective Spatial Calibration Module (SCM) for accurate
WSOL, incorporating semantic similarities of patch tokens and their spatial
relationships into a unified diffusion model. Specifically, we introduce a
learnable parameter to dynamically adjust the semantic correlations and spatial
context intensities for effective information propagation. In practice, SCM is
designed as an external module of Transformer, and can be removed during
inference to reduce the computation cost. The object-sensitive localization
ability is implicitly embedded into the Transformer encoder through
optimization in the training phase. It enables the generated attention maps to
capture the sharper object boundaries and filter the object-irrelevant
background area. Extensive experimental results demonstrate the effectiveness
of the proposed method, which significantly outperforms its counterpart TS-CAM
on both CUB-200 and ImageNet-1K benchmarks. The code is available at
https://github.com/164140757/SCM.
- Abstract(参考訳): 画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としたweakly supervised object localization(wsol)が,アノテーションコストの低さから注目を集めている。
近年の研究では、従来のクラスアクティベーションマッピング(CAM)における部分的アクティベーションを回避することを目的として、視覚変換器の長期依存性に対する自己注意の利点を活用している。
しかし、変圧器の長距離モデリングは、対象の固有の空間的コヒーレンスを無視し、通常、対象の境界から遠く離れた意味認識領域を拡散させ、局在化の結果を著しく大きくまたははるかに小さくする。
このような問題に対処するために、パッチトークンとそれらの空間関係のセマンティックな類似性を統合拡散モデルに組み込んだ、シンプルで効果的な空間校正モジュール(SCM)を導入する。
具体的には,効果的な情報伝達のための意味的相関と空間的文脈強度を動的に調整する学習可能なパラメータを提案する。
実際には、SCMはTransformerの外部モジュールとして設計されており、推論中に除去して計算コストを削減することができる。
トレーニングフェーズの最適化により、オブジェクトに敏感なローカライゼーション能力がトランスコーダに暗黙的に埋め込まれる。
これにより、生成されたアテンションマップは、よりシャープなオブジェクト境界をキャプチャし、オブジェクトに関係のない背景領域をフィルタリングできる。
CUB-200 と ImageNet-1K のベンチマークにおいて,TS-CAM を著しく上回り,提案手法の有効性を実証した。
コードはhttps://github.com/164140757/SCMで入手できる。
関連論文リスト
- ELGC-Net: Efficient Local-Global Context Aggregation for Remote Sensing Change Detection [65.59969454655996]
本稿では,変化領域を正確に推定するために,リッチな文脈情報を利用する効率的な変化検出フレームワークELGC-Netを提案する。
提案するELGC-Netは、リモートセンシング変更検出ベンチマークにおいて、最先端の性能を新たに設定する。
また,ELGC-Net-LWも導入した。
論文 参考訳(メタデータ) (2024-03-26T17:46:25Z) - Multiscale Vision Transformer With Deep Clustering-Guided Refinement for
Weakly Supervised Object Localization [4.300577895958228]
この研究は、弱教師付きオブジェクトローカライゼーションの課題に対処する。
様々なスケールでパッチ埋め込みを抽出する複数のオブジェクトローカライゼーション変換器を備える。
本稿では,局所化精度をさらに高めるディープクラスタリング誘導改良法を提案する。
論文 参考訳(メタデータ) (2023-12-15T07:46:44Z) - Background Activation Suppression for Weakly Supervised Object
Localization and Semantic Segmentation [84.62067728093358]
弱教師付きオブジェクトローカライゼーションとセマンティックセグメンテーションは、画像レベルのラベルのみを使用してオブジェクトをローカライズすることを目的としている。
画素レベルのローカライゼーションを実現するために,フォアグラウンド予測マップを生成することで,新たなパラダイムが誕生した。
本稿では,物体の局在化学習過程に関する2つの驚くべき実験結果を示す。
論文 参考訳(メタデータ) (2023-09-22T15:44:10Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - LAW-Diffusion: Complex Scene Generation by Diffusion with Layouts [107.11267074981905]
LAW拡散(LAW-Diffusion)と呼ばれる意味制御可能なレイアウト・AWare拡散モデルを提案する。
LAW拡散は、特にコヒーレントな対象関係を持つ最先端の生成性能をもたらすことを示す。
論文 参考訳(メタデータ) (2023-08-13T08:06:18Z) - Spatial-Aware Token for Weakly Supervised Object Localization [137.0570026552845]
タスク固有の空間認識トークンを,弱教師付き方式で条件定位に提案する。
実験の結果、SATはCUB-200とImageNetの両方で、98.45%と73.13%のGT-known Locで最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2023-03-18T15:38:17Z) - Robust Change Detection Based on Neural Descriptor Fields [53.111397800478294]
我々は、部分的に重なり合う観測結果とノイズのある局所化結果に頑健なオブジェクトレベルのオンライン変化検出手法を開発した。
形状符号の類似性を利用して物体を連想させ, 局所的な物体近傍の空間配置を比較することにより, 観測重複や局所雑音に対する頑健性を示す。
論文 参考訳(メタデータ) (2022-08-01T17:45:36Z) - Joint Spatial-Temporal and Appearance Modeling with Transformer for
Multiple Object Tracking [59.79252390626194]
本稿ではTransSTAMという新しい手法を提案する。Transformerを利用して各オブジェクトの外観特徴とオブジェクト間の空間的時間的関係の両方をモデル化する。
提案手法はMOT16, MOT17, MOT20を含む複数の公開ベンチマークで評価され, IDF1とHOTAの両方で明確な性能向上を実現している。
論文 参考訳(メタデータ) (2022-05-31T01:19:18Z) - Weakly Supervised Object Localization as Domain Adaption [19.854125742336688]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルの分類マスクの監督のみでオブジェクトをローカライズすることに焦点を当てる。
従来のWSOL手法の多くは、MIL(Multi-instance Learning)機構を用いて分類構造に基づいてオブジェクトをローカライズする分類活性化マップ(CAM)に従っている。
この研究は、WSOLをドメイン適応(DA)タスクとしてモデル化する、新しい視点を提供する。そこでは、ソース/イメージドメインでトレーニングされたスコア推定器がターゲット/ピクセルドメイン上でテストされ、オブジェクトを見つける。
論文 参考訳(メタデータ) (2022-03-03T13:50:22Z) - LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization [38.376238216214524]
弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2021-12-10T01:48:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。