論文の概要: A Simple yet Effective Network based on Vision Transformer for
Camouflaged Object and Salient Object Detection
- arxiv url: http://arxiv.org/abs/2402.18922v1
- Date: Thu, 29 Feb 2024 07:29:28 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 15:42:54.550110
- Title: A Simple yet Effective Network based on Vision Transformer for
Camouflaged Object and Salient Object Detection
- Title(参考訳): カモフラージュ対象物検出のための視覚変換器を用いた簡易かつ効果的なネットワーク
- Authors: Chao Hao, Zitong Yu, Xin Liu, Jun Xu, Huanjing Yue, Jingyu Yang
- Abstract要約: 視覚変換器(ViT)に基づく簡易で効果的なネットワーク(SENet)を提案する。
ローカル情報をモデル化するTransformerの機能を強化するために,ローカル情報キャプチャモジュール(licM)を提案する。
また,BCE(Binary Cross-Entropy)とIoU(Intersection over Union)に基づく動的重み付き損失(DW損失)を提案する。
- 参考スコア(独自算出の注目度): 33.30644598646274
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Camouflaged object detection (COD) and salient object detection (SOD) are two
distinct yet closely-related computer vision tasks widely studied during the
past decades. Though sharing the same purpose of segmenting an image into
binary foreground and background regions, their distinction lies in the fact
that COD focuses on concealed objects hidden in the image, while SOD
concentrates on the most prominent objects in the image. Previous works
achieved good performance by stacking various hand-designed modules and
multi-scale features. However, these carefully-designed complex networks often
performed well on one task but not on another. In this work, we propose a
simple yet effective network (SENet) based on vision Transformer (ViT), by
employing a simple design of an asymmetric ViT-based encoder-decoder structure,
we yield competitive results on both tasks, exhibiting greater versatility than
meticulously crafted ones. Furthermore, to enhance the Transformer's ability to
model local information, which is important for pixel-level binary segmentation
tasks, we propose a local information capture module (LICM). We also propose a
dynamic weighted loss (DW loss) based on Binary Cross-Entropy (BCE) and
Intersection over Union (IoU) loss, which guides the network to pay more
attention to those smaller and more difficult-to-find target objects according
to their size. Moreover, we explore the issue of joint training of SOD and COD,
and propose a preliminary solution to the conflict in joint training, further
improving the performance of SOD. Extensive experiments on multiple benchmark
datasets demonstrate the effectiveness of our method. The code is available at
https://github.com/linuxsino/SENet.
- Abstract(参考訳): camouflaged object detection (cod) と salient object detection (sod) は、過去数十年間で広く研究されたコンピュータビジョンのタスクである。
イメージをバイナリフォアグラウンドとバックグラウンド領域に分割するという同じ目的を共有するが、その区別は、codがイメージに隠されたオブジェクトに焦点を当てているのに対して、sodはイメージ内の最も目立つオブジェクトに集中している点にある。
以前の作品は、様々な手作りのモジュールとマルチスケールの機能を積み重ねることで、優れた性能を達成した。
しかし、これら慎重に設計された複雑なネットワークは、1つのタスクでよく機能するが、別のタスクでは機能しない。
本研究では、視覚変換器(ViT)をベースとした簡易かつ効果的なネットワーク(SENet)を提案し、非対称なViTエンコーダデコーダ構造を簡単な設計で設計し、両タスクで競合する結果を得る。
さらに,ピクセルレベルのバイナリセグメンテーションタスクにおいて重要な局所情報をモデル化するトランスフォーマティブの能力を向上させるために,ローカル情報キャプチャモジュール(licm)を提案する。
また,BCE(Binary Cross-Entropy)とIoU(Intersection over Union)に基づく動的重み付き損失(DW損失)を提案する。
さらに, SOD と COD の合同訓練の課題について検討し, 共同訓練における紛争に対する予備的解決法を提案し, SOD の性能をさらに向上させる。
複数のベンチマークデータセットに対する大規模な実験により,本手法の有効性が示された。
コードはhttps://github.com/linuxsino/SENetで公開されている。
関連論文リスト
- SCLNet: A Scale-Robust Complementary Learning Network for Object Detection in UAV Images [0.0]
本稿では,SCLNet(Scale-robust complementary learning network)を提案する。
1つの実装は、提案したスケール補完デコーダとスケール補完損失関数に基づいている。
もう一つの実装は、提案したコントラッシブ・コントラスト・コントラスト・コントラスト・コントラスト・ネットワークとコントラスト・コントラスト・コントラスト・コントラスト・コントラスト・ロス関数に基づいている。
論文 参考訳(メタデータ) (2024-09-11T05:39:25Z) - Camouflaged Object Detection with Feature Grafting and Distractor Aware [9.791590363932519]
そこで我々は,Camouflaged Object Detectionタスクを処理するために,FDNet(Feature Grafting and Distractor Aware Network)を提案する。
具体的には、CNNとTransformerを使ってマルチスケール画像を並列にエンコードする。
Distractor Aware Moduleは、CODタスクで考えられる2つの障害を明示的にモデル化して、粗いカモフラージュマップを洗練させるように設計されている。
論文 参考訳(メタデータ) (2023-07-08T09:37:08Z) - De-coupling and De-positioning Dense Self-supervised Learning [65.56679416475943]
Dense Self-Supervised Learning (SSL)メソッドは、複数のオブジェクトでイメージを処理する際に、画像レベルの特徴表現を使用する際の制限に対処する。
本研究は, 層深度やゼロパディングに伴う受容野の増大によって生じる, 結合と位置バイアスに悩まされていることを示す。
我々はCOCOにおける本手法の利点と、オブジェクト分類、セマンティックセグメンテーション、オブジェクト検出のための新しい挑戦的ベンチマークであるOpenImage-MINIについて示す。
論文 参考訳(メタデータ) (2023-03-29T18:07:25Z) - Unleash the Potential of Image Branch for Cross-modal 3D Object
Detection [67.94357336206136]
画像分岐のポテンシャルを2つの側面から解き放つことを目的として,新しい3Dオブジェクト検出器UPIDetを提案する。
まず、UPIDetは正規化された局所座標写像推定と呼ばれる新しい2次元補助タスクを導入する。
第2に,イメージブランチのトレーニング目標から逆転する勾配によって,ポイントクラウドバックボーンの表現能力を向上できることを見出した。
論文 参考訳(メタデータ) (2023-01-22T08:26:58Z) - Visual Transformer for Object Detection [0.0]
我々は、自己注意を識別的視覚的タスク、オブジェクト検出に用いて、畳み込みの代替として検討する。
我々のモデルは、多くの異なるモデルとスケールにわたるCOCOのオブジェクト検出において、一貫した改善をもたらす。
論文 参考訳(メタデータ) (2022-06-01T06:13:09Z) - Multitask AET with Orthogonal Tangent Regularity for Dark Object
Detection [84.52197307286681]
暗黒環境下でのオブジェクト検出を強化するために,新しいマルチタスク自動符号化変換(MAET)モデルを提案する。
自己超越的な方法で、MAETは、現実的な照明劣化変換を符号化して復号することで、本質的な視覚構造を学習する。
我々は,合成および実世界のデータセットを用いて最先端のパフォーマンスを達成した。
論文 参考訳(メタデータ) (2022-05-06T16:27:14Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - A Unified Transformer Framework for Group-based Segmentation:
Co-Segmentation, Co-Saliency Detection and Video Salient Object Detection [59.21990697929617]
人間は、ダイナミックな世界に住んでいるので、画像のグループやビデオのフレームから学ぶことによってオブジェクトをマイニングする傾向があります。
従来のアプローチでは、類似したタスクで異なるネットワークを個別に設計するが、互いに適用するのは困難である。
UFO(UnifiedObject Framework for Co-Object Framework)という,これらの問題に対処するための統一フレームワークを導入する。
論文 参考訳(メタデータ) (2022-03-09T13:35:19Z) - CoSformer: Detecting Co-Salient Object with Transformers [2.3148470932285665]
Co-Salient Object Detection (CoSOD) は、人間の視覚システムをシミュレートして、関連する画像のグループから共通および重度のオブジェクトを発見することを目的としています。
複数の画像から高精細かつ一般的な視覚パターンを抽出するCo-Salient Object Detection Transformer (CoSformer) ネットワークを提案する。
論文 参考訳(メタデータ) (2021-04-30T02:39:12Z) - Suppress and Balance: A Simple Gated Network for Salient Object
Detection [89.88222217065858]
両問題を同時に解くための単純なゲートネットワーク(GateNet)を提案する。
多レベルゲートユニットの助けを借りて、エンコーダからの貴重なコンテキスト情報をデコーダに最適に送信することができる。
さらに,提案したFold-ASPP操作(Fold-ASPP)に基づくアトラス空間ピラミッドプーリングを用いて,様々なスケールのサリアンオブジェクトを正確に位置決めする。
論文 参考訳(メタデータ) (2020-07-16T02:00:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。