論文の概要: LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization
- arxiv url: http://arxiv.org/abs/2112.05291v1
- Date: Fri, 10 Dec 2021 01:48:40 GMT
- ステータス: 処理完了
- システム内更新日: 2021-12-13 14:52:08.209684
- Title: LCTR: On Awakening the Local Continuity of Transformer for Weakly
Supervised Object Localization
- Title(参考訳): LCTR:弱監視対象局所化のための変圧器の局所連続性覚醒について
- Authors: Zhiwei Chen, Changan Wang, Yabiao Wang, Guannan Jiang, Yunhang Shen,
Ying Tai, Chengjie Wang, Wei Zhang, Liujuan Cao
- Abstract要約: 弱教師付きオブジェクトローカライゼーション(WSOL)は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
本稿では,グローバルな特徴の局所認識能力を高めることを目的とした,LCTRと呼ばれるトランスフォーマー上に構築された新しいフレームワークを提案する。
- 参考スコア(独自算出の注目度): 38.376238216214524
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Weakly supervised object localization (WSOL) aims to learn object localizer
solely by using image-level labels. The convolution neural network (CNN) based
techniques often result in highlighting the most discriminative part of objects
while ignoring the entire object extent. Recently, the transformer architecture
has been deployed to WSOL to capture the long-range feature dependencies with
self-attention mechanism and multilayer perceptron structure. Nevertheless,
transformers lack the locality inductive bias inherent to CNNs and therefore
may deteriorate local feature details in WSOL. In this paper, we propose a
novel framework built upon the transformer, termed LCTR (Local Continuity
TRansformer), which targets at enhancing the local perception capability of
global features among long-range feature dependencies. To this end, we propose
a relational patch-attention module (RPAM), which considers cross-patch
information on a global basis. We further design a cue digging module (CDM),
which utilizes local features to guide the learning trend of the model for
highlighting the weak local responses. Finally, comprehensive experiments are
carried out on two widely used datasets, ie, CUB-200-2011 and ILSVRC, to verify
the effectiveness of our method.
- Abstract(参考訳): weakly supervised object localization (wsol) は、画像レベルのラベルだけでオブジェクトローカライザを学習することを目的としている。
畳み込みニューラルネットワーク(CNN)ベースの技術は、オブジェクト全体を無視しながら、オブジェクトの最も識別性の高い部分を強調させる。
近年, トランスフォーマーアーキテクチャがWSOLに導入され, 自己認識機構と多層パーセプトロン構造により, 長距離機能依存性を捉えている。
それでもトランスフォーマーはcnnに固有の局所的帰納的バイアスを欠いているため、wsolの局所的特徴の詳細が劣化する可能性がある。
本稿では,グローバル特徴量の局所知覚能力の向上を目的としたlctr(local continuity transformer)と呼ばれるトランスを基盤とした新しい枠組みを提案する。
この目的のために,グローバルベースでクロスパッチ情報を検討するリレーショナルパッチアテンションモジュール (RPAM) を提案する。
さらに、局所的な特徴を利用してモデルの学習トレンドを導出し、弱い局所応答をハイライトするキュー掘削モジュール(CDM)を設計する。
最後に,本手法の有効性を検証するために,ie,cub-200-2011,ilsvrcの2つのデータセットを用いた総合実験を行った。
関連論文リスト
- United Domain Cognition Network for Salient Object Detection in Optical Remote Sensing Images [21.76732661032257]
周波数領域と空間領域のグローバルローカル情報を共同で探索する新しい統一ドメイン認知ネットワーク(UDCNet)を提案する。
実験結果から提案したUDCNetが24種類の最先端モデルよりも優れていることが示された。
論文 参考訳(メタデータ) (2024-11-11T04:12:27Z) - Salient Object Detection in Optical Remote Sensing Images Driven by
Transformer [69.22039680783124]
光リモートセンシング画像(ORSI-SOD)のためのGlobal extract Local Exploration Network(GeleNet)を提案する。
具体的には、GeleNetはまずトランスフォーマーバックボーンを採用し、グローバルな長距離依存関係を持つ4レベルの機能埋め込みを生成する。
3つの公開データセットに関する大規模な実験は、提案されたGeleNetが関連する最先端メソッドより優れていることを示している。
論文 参考訳(メタデータ) (2023-09-15T07:14:43Z) - Semantic-Constraint Matching Transformer for Weakly Supervised Object
Localization [31.039698757869974]
弱教師付きオブジェクトローカライゼーション(WSOL)は、イメージレベルの監督のみでオブジェクトをローカライズすることを学ぶ。
従来のCNNベースのメソッドは、エンティティのスコープ全体ではなく、オブジェクトの識別部分に集中して、部分的なアクティベーションの問題に悩まされていた。
本稿では,変圧器を用いたセマンティック・制約マッチングネットワーク(SCMN)を提案する。
論文 参考訳(メタデータ) (2023-09-04T03:20:31Z) - MOST: Multiple Object localization with Self-supervised Transformers for
object discovery [97.47075050779085]
自己教師型トランスフォーマー(MOST)を用いた複数オブジェクトのローカライゼーションを提案する。
MOSTは、自己教師付き学習を用いて訓練されたトランスフォーマーの機能を使用して、実世界の画像に複数のオブジェクトをローカライズする。
対象検出器の自己教師付き事前学習にはMOSTが有効であり, 半教師付きオブジェクト検出と非教師付き領域提案生成において一貫した改善が得られた。
論文 参考訳(メタデータ) (2023-04-11T17:57:27Z) - DQnet: Cross-Model Detail Querying for Camouflaged Object Detection [54.82390534024954]
カモフラージュされた物体検出のための畳み込みニューラルネットワーク(CNN)は、完全な対象範囲を無視しながら局所的な識別領域を活性化する傾向がある。
本稿では,CNNの内在的特性から部分的活性化が引き起こされることを論じる。
完全なオブジェクト範囲を活性化できる特徴マップを得るために,クロスモデル詳細クエリネットワーク(DQnet)と呼ばれる新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-16T06:23:58Z) - LCPFormer: Towards Effective 3D Point Cloud Analysis via Local Context
Propagation in Transformers [60.51925353387151]
本稿では,近隣地域間のメッセージパッシングを活用するために,LCP (Local Context Propagation) という新しいモジュールを提案する。
隣接するローカル領域の重複点を仲介として使用した後、異なるローカルリージョンからの共有ポイントの特徴を再重み付けし、その後、次のレイヤに渡す。
提案手法は, 異なるタスクに適用可能であり, 3次元形状分類や高密度予測タスクを含むベンチマークにおいて, 様々なトランスフォーマーベースの手法より優れる。
論文 参考訳(メタデータ) (2022-10-23T15:43:01Z) - Weakly Supervised Object Localization via Transformer with Implicit
Spatial Calibration [20.322494442959762]
Wakly Supervised Object Localization (WSOL) は、実際のアプリケーションでアノテーションのコストが低いため、多くの注目を集めている。
パッチトークンとそれらの空間関係のセマンティックな類似性を統合拡散モデルに組み込んだ,正確なWSOLのためのシンプルで効果的な空間モジュール(SCM)を提案する。
SCMはTransformerの外部モジュールとして設計されており、推論中に除去して計算コストを削減することができる。
論文 参考訳(メタデータ) (2022-07-21T12:37:15Z) - Remote Sensing Cross-Modal Text-Image Retrieval Based on Global and
Local Information [15.32353270625554]
リモートセンシング(RS)画像の高速かつ柔軟な情報抽出を可能にするため,クロスモーダルリモートセンシングテキスト画像検索(RSCTIR)は近年,緊急な研究ホットスポットとなっている。
まず,グローバル・ローカル情報(GaLR)に基づく新しいRSCTIRフレームワークを提案し,多レベル情報ダイナミックフュージョン(MIDF)モジュールを設計し,異なるレベルの機能を効果的に統合する。
公開データセットの実験は、RSCTIRタスク上でのGaLR法の最先端性能を強く実証している。
論文 参考訳(メタデータ) (2022-04-21T03:18:09Z) - LocalViT: Bringing Locality to Vision Transformers [132.42018183859483]
線、エッジ、形状、さらにはオブジェクトなどの構造に関連するため、画像には局所性が不可欠です。
フィードフォワードネットワークに奥行き畳み込みを導入することで,視覚トランスフォーメーションに局所性を加える。
この一見シンプルなソリューションは、フィードフォワードネットワークと反転残留ブロックの比較に触発されます。
論文 参考訳(メタデータ) (2021-04-12T17:59:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。