論文の概要: Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers
- arxiv url: http://arxiv.org/abs/2303.14816v1
- Date: Sun, 26 Mar 2023 20:50:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-28 17:34:26.259604
- Title: Feature Shrinkage Pyramid for Camouflaged Object Detection with
Transformers
- Title(参考訳): 変圧器を用いたカモフラージュ物体検出のための特徴収縮ピラミッド
- Authors: Zhou Huang, Hang Dai, Tian-Zhu Xiang, Shuo Wang, Huai-Xin Chen, Jie
Qin, Huan Xiong
- Abstract要約: 視覚変換器は、最近、擬似的オブジェクト検出において、強いグローバルなコンテキストモデリング能力を示した。
ローカリティモデリングの効率の低下とデコーダの機能集約の不足という2つの大きな制限に悩まされている。
本研究では, 局所性向上した隣接する変圧器の特徴を階層的に復号化することを目的とした, 変圧器をベースとしたFSPNet(Feature Shrinkage Pyramid Network)を提案する。
- 参考スコア(独自算出の注目度): 34.42710399235461
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Vision transformers have recently shown strong global context modeling
capabilities in camouflaged object detection. However, they suffer from two
major limitations: less effective locality modeling and insufficient feature
aggregation in decoders, which are not conducive to camouflaged object
detection that explores subtle cues from indistinguishable backgrounds. To
address these issues, in this paper, we propose a novel transformer-based
Feature Shrinkage Pyramid Network (FSPNet), which aims to hierarchically decode
locality-enhanced neighboring transformer features through progressive
shrinking for camouflaged object detection. Specifically, we propose a nonlocal
token enhancement module (NL-TEM) that employs the non-local mechanism to
interact neighboring tokens and explore graph-based high-order relations within
tokens to enhance local representations of transformers. Moreover, we design a
feature shrinkage decoder (FSD) with adjacent interaction modules (AIM), which
progressively aggregates adjacent transformer features through a layer-bylayer
shrinkage pyramid to accumulate imperceptible but effective cues as much as
possible for object information decoding. Extensive quantitative and
qualitative experiments demonstrate that the proposed model significantly
outperforms the existing 24 competitors on three challenging COD benchmark
datasets under six widely-used evaluation metrics. Our code is publicly
available at https://github.com/ZhouHuang23/FSPNet.
- Abstract(参考訳): 視覚トランスフォーマーは、最近、迷彩物体検出において強力なグローバルコンテキストモデリング能力を示している。
しかし、それらは2つの大きな制限に悩まされている: 有効でない局所性モデリングとデコーダの特徴集約が不十分であり、これは不明瞭な背景から微妙な手がかりを探索するカモフラージュされた物体検出とは無関係である。
そこで,本稿では,カモフラージュ物体検出のための漸進的縮小により,局所性に富んだ隣り合う変圧器機能を階層的にデコードすることを目的とした,新しい変圧器型特徴縮小ピラミッドネットワーク(fspnet)を提案する。
具体的には,非局所トークン拡張モジュール(NL-TEM)を提案する。NL-TEMは,非局所的な機構を用いて隣接するトークンと相互作用し,トークン内のグラフに基づく高次関係を探索し,トランスフォーマーの局所表現を強化する。
さらに,隣接する相互作用モジュール (AIM) を持つ機能縮小デコーダ (FSD) を設計し, 隣り合うトランスフォーマーの特徴を層間収縮ピラミッドを通じて徐々に集約し, オブジェクト情報の復号化に可能な限り有効な手がかりを蓄積する。
大規模な定量的および定性的な実験により、提案モデルが既存の24の競合相手に対して、6つの広く使用されている評価指標の下で3つの挑戦的なCODベンチマークデータセットで大きく上回っていることが示された。
私たちのコードはhttps://github.com/zhouhuang23/fspnetで公開されています。
関連論文リスト
- Hierarchical Graph Interaction Transformer with Dynamic Token Clustering for Camouflaged Object Detection [57.883265488038134]
本稿では,HGINetと呼ばれる階層的なグラフ相互作用ネットワークを提案する。
このネットワークは、階層的トークン化機能間の効果的なグラフ相互作用を通じて、知覚不能なオブジェクトを発見することができる。
本実験は,既存の最先端手法と比較して,HGINetの優れた性能を示すものである。
論文 参考訳(メタデータ) (2024-08-27T12:53:25Z) - Boosting Cross-Domain Point Classification via Distilling Relational Priors from 2D Transformers [59.0181939916084]
従来の3Dネットワークは主に局所幾何学的詳細に焦点を当て、局所幾何学間の位相構造を無視する。
そこで本稿では,大規模画像上においてよく訓練されたトランスフォーマーから前駆体を抽出する,新しい先駆体蒸留法を提案する。
PointDA-10とSim-to-Realデータセットの実験は、提案手法が点クラウド分類におけるUDAの最先端性能を一貫して達成していることを検証する。
論文 参考訳(メタデータ) (2024-07-26T06:29:09Z) - CFPFormer: Feature-pyramid like Transformer Decoder for Segmentation and Detection [1.837431956557716]
特徴ピラミッドは、医療画像のセグメンテーションやオブジェクト検出といったタスクのために、畳み込みニューラルネットワーク(CNN)やトランスフォーマーで広く採用されている。
本稿では,特徴ピラミッドと変圧器を統合したデコーダブロックを提案する。
本モデルでは,既存手法と比較して,小型物体の検出性能が向上する。
論文 参考訳(メタデータ) (2024-04-23T18:46:07Z) - Frequency Perception Network for Camouflaged Object Detection [51.26386921922031]
周波数領域のセマンティック階層によって駆動される新しい学習可能かつ分離可能な周波数知覚機構を提案する。
ネットワーク全体では、周波数誘導粗い局所化ステージと細部保存の微細局在化ステージを含む2段階モデルを採用している。
提案手法は,既存のモデルと比較して,3つのベンチマークデータセットにおいて競合性能を実現する。
論文 参考訳(メタデータ) (2023-08-17T11:30:46Z) - Hierarchical Point Attention for Indoor 3D Object Detection [111.04397308495618]
本研究は、点ベース変圧器検出器の汎用階層設計として、2つの新しい注意操作を提案する。
まず、よりきめ細かい特徴学習を可能にするために、シングルスケールの入力機能からマルチスケールトークンを構築するマルチスケール注意(MS-A)を提案する。
第2に,適応型アテンション領域を持つサイズ適応型ローカルアテンション(Local-A)を提案する。
論文 参考訳(メタデータ) (2023-01-06T18:52:12Z) - Feature Aggregation and Propagation Network for Camouflaged Object
Detection [42.33180748293329]
カモフラージュされたオブジェクト検出(COD)は、環境に埋め込まれたカモフラージュされたオブジェクトを検出し、分離することを目的としている。
いくつかのCOD法が開発されているが, 前景オブジェクトと背景環境との固有の類似性により, 依然として不満足な性能に悩まされている。
カモフラージュされた物体検出のための新しい特徴集約・伝播ネットワーク(FAP-Net)を提案する。
論文 参考訳(メタデータ) (2022-12-02T05:54:28Z) - Transformers for Object Detection in Large Point Clouds [9.287964414592826]
トランスLPC(TransLPC)は,変圧器アーキテクチャに基づく大点雲の新しい検出モデルである。
本稿では,メモリフレンドリーな変圧器デコーダクエリ数を維持しながら,検出精度を向上させる新しいクエリ改善手法を提案する。
この単純な手法は検出精度に大きな影響を与え、実際のライダーデータ上での挑戦的なnuScenesデータセットで評価される。
論文 参考訳(メタデータ) (2022-09-30T06:35:43Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。