論文の概要: Transformer Transforms Salient Object Detection and Camouflaged Object
Detection
- arxiv url: http://arxiv.org/abs/2104.10127v1
- Date: Tue, 20 Apr 2021 17:12:51 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-21 15:57:31.765087
- Title: Transformer Transforms Salient Object Detection and Camouflaged Object
Detection
- Title(参考訳): トランスフォーマーによる透明物体検出とカモフラージュ物体検出
- Authors: Yuxin Mao, Jing Zhang, Zhexiong Wan, Yuchao Dai, Aixuan Li, Yunqiu Lv,
Xinyu Tian, Deng-Ping Fan, and Nick Barnes
- Abstract要約: 本研究は, トランスネットワークを用いたサルエント物体検出(SOD)に関する研究である。
具体的には、フル教師付きRGBイメージベースSOD、RGB-DイメージペアベースSOD、スクリブル監視による弱い教師付きSODに対して、高密度トランスフォーマーバックボーンを採用する。
拡張として、カモフラージュオブジェクトセグメンテーションのためのカモフラージオブジェクト検出(COD)タスクにも完全に監視されたモデルを適用します。
- 参考スコア(独自算出の注目度): 43.79585695098729
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transformer networks, which originate from machine translation, are
particularly good at modeling long-range dependencies within a long sequence.
Currently, the transformer networks are making revolutionary progress in
various vision tasks ranging from high-level classification tasks to low-level
dense prediction tasks. In this paper, we conduct research on applying the
transformer networks for salient object detection (SOD). Specifically, we adopt
the dense transformer backbone for fully supervised RGB image based SOD, RGB-D
image pair based SOD, and weakly supervised SOD via scribble supervision. As an
extension, we also apply our fully supervised model to the task of camouflaged
object detection (COD) for camouflaged object segmentation. For the fully
supervised models, we define the dense transformer backbone as feature encoder,
and design a very simple decoder to produce a one channel saliency map (or
camouflage map for the COD task). For the weakly supervised model, as there
exists no structure information in the scribble annotation, we first adopt the
recent proposed Gated-CRF loss to effectively model the pair-wise relationships
for accurate model prediction. Then, we introduce self-supervised learning
strategy to push the model to produce scale-invariant predictions, which is
proven effective for weakly supervised models and models trained on small
training datasets. Extensive experimental results on various SOD and COD tasks
(fully supervised RGB image based SOD, fully supervised RGB-D image pair based
SOD, weakly supervised SOD via scribble supervision, and fully supervised RGB
image based COD) illustrate that transformer networks can transform salient
object detection and camouflaged object detection, leading to new benchmarks
for each related task.
- Abstract(参考訳): 機械翻訳に由来するトランスフォーマーネットワークは、長いシーケンス内の長距離依存性のモデル化に特に適している。
現在、トランスフォーマーネットワークは、ハイレベル分類タスクから低レベル密度予測タスクまで、様々なビジョンタスクにおいて革命的な進歩を遂げている。
本稿では,sod (salient object detection) へのトランスフォーマーネットワークの適用に関する研究を行う。
具体的には、フル教師付きRGBイメージベースSOD、RGB-DイメージペアベースSOD、スクリブル監視による弱い教師付きSODに対して、高密度トランスフォーマーバックボーンを採用する。
拡張として, 完全教師付きモデルを用いて, カモフラージュ対象検出 (COD) の課題に適用し, キャモフラーグ対象のセグメンテーションについて検討した。
完全教師付きモデルでは、高密度トランスフォーマーバックボーンを特徴エンコーダとして定義し、非常に単純なデコーダを設計し、1チャンネルのサリエンシマップ(またはCODタスクのカモフラージュマップ)を作成する。
弱教師付きモデルでは,scribbleアノテーションに構造情報が存在しないため,提案するgated-crf損失をまず適用し,正確なモデル予測のためのペアワイズ関係を効果的にモデル化する。
そこで,本研究では,小規模学習データセット上で学習された弱教師付きモデルやモデルに対して有効であることを証明した,スケール不変予測をモデルにプッシュする自己教師付き学習戦略を提案する。
各種SODおよびCODタスク(フル教師付きRGBイメージベースSOD、フル教師付きRGB-DイメージペアベースSOD、スクリブルインスペクションによる弱い教師付きSOD、フル教師付きRGBイメージベースCOD)の広範な実験結果から、トランスフォーマーネットワークが健全なオブジェクト検出とキャモフラージュされたオブジェクト検出を変換し、関連するタスクごとに新しいベンチマークを作成できることを示した。
関連論文リスト
- VST++: Efficient and Stronger Visual Saliency Transformer [74.26078624363274]
我々は,グローバルな長距離依存関係を探索する,効率的で強力なVST++モデルを開発した。
我々は、RGB、RGB-D、RGB-T SODベンチマークデータセット上で、トランスフォーマーベースのバックボーンにまたがってモデルを評価した。
論文 参考訳(メタデータ) (2023-10-18T05:44:49Z) - Visual Transformer for Object Detection [0.0]
我々は、自己注意を識別的視覚的タスク、オブジェクト検出に用いて、畳み込みの代替として検討する。
我々のモデルは、多くの異なるモデルとスケールにわたるCOCOのオブジェクト検出において、一貫した改善をもたらす。
論文 参考訳(メタデータ) (2022-06-01T06:13:09Z) - BTranspose: Bottleneck Transformers for Human Pose Estimation with
Self-Supervised Pre-Training [0.304585143845864]
本稿では,CNNとマルチヘッド自己注意層(MHSA)を効果的に組み合わせたBottleneck Transformersを提案する。
我々は,異なるバックボーンアーキテクチャを考察し,DINO自己教師型学習手法を用いて事前学習を行う。
実験により,本モデルが [1] などの他の手法と競合する 76.4 のAPを達成でき,ネットワークパラメータも少ないことがわかった。
論文 参考訳(メタデータ) (2022-04-21T15:45:05Z) - ViDT: An Efficient and Effective Fully Transformer-based Object Detector [97.71746903042968]
検出変換器は、オブジェクト検出のための最初のエンドツーエンド学習システムである。
視覚変換器は、画像分類のための最初の完全変換器ベースのアーキテクチャである。
本稿では、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
論文 参考訳(メタデータ) (2021-10-08T06:32:05Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - End-to-End Trainable Multi-Instance Pose Estimation with Transformers [68.93512627479197]
畳み込みニューラルネットワークとトランスを組み合わせることで,マルチインスタンスポーズ推定のための新たなエンドツーエンドトレーニング可能なアプローチを提案する。
変換器を用いたエンドツーエンドのトレーニング可能なオブジェクト検出に関する最近の研究に触発されて、変換器エンコーダデコーダアーキテクチャとバイパーティイトマッチングスキームを併用して、与えられた画像中のすべての個人のポーズを直接回帰する。
提案モデルであるポーズ推定トランスフォーマ(poet)は,キーポイント損失,キーポイント可視性損失,センター損失,クラス損失からなる,新たなセットベースグローバル損失を用いてトレーニングを行う。
論文 参考訳(メタデータ) (2021-03-22T18:19:22Z) - Toward Transformer-Based Object Detection [12.704056181392415]
ビジョントランスフォーマーは、共通の検出タスクヘッドによってバックボーンとして使用することができ、競合するCOCO結果を生成する。
vit-frcnnは、大きな事前訓練能力と高速微調整性能を含むトランスフォーマーに関連するいくつかの既知の特性を示す。
ViT-FRCNNは、オブジェクト検出などの複雑な視覚タスクの純粋なトランスフォーマーソリューションへの重要なステップストーンであると考えています。
論文 参考訳(メタデータ) (2020-12-17T22:33:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。