論文の概要: EDTER: Edge Detection with Transformer
- arxiv url: http://arxiv.org/abs/2203.08566v1
- Date: Wed, 16 Mar 2022 11:55:55 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-17 15:35:40.324351
- Title: EDTER: Edge Detection with Transformer
- Title(参考訳): EDTER: Transformer によるエッジ検出
- Authors: Mengyang Pu and Yaping Huang and Yuming Liu and Qingji Guan and Haibin
Ling
- Abstract要約: 本研究では,新しいトランスを用いたエッジ検出器であるemphEdge Detection TransformER (EDTER)を提案し,透明でクリップなオブジェクト境界と有意義なエッジを抽出する。
EDTERは画像コンテキスト情報と詳細なローカルキューを同時に利用する。
BSDS500、NYUDv2、Multicueの実験は、最先端技術と比較してEDTERの優位性を実証している。
- 参考スコア(独自算出の注目度): 71.83960813880843
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Convolutional neural networks have made significant progresses in edge
detection by progressively exploring the context and semantic features.
However, local details are gradually suppressed with the enlarging of receptive
fields. Recently, vision transformer has shown excellent capability in
capturing long-range dependencies. Inspired by this, we propose a novel
transformer-based edge detector, \emph{Edge Detection TransformER (EDTER)}, to
extract clear and crisp object boundaries and meaningful edges by exploiting
the full image context information and detailed local cues simultaneously.
EDTER works in two stages. In Stage I, a global transformer encoder is used to
capture long-range global context on coarse-grained image patches. Then in
Stage II, a local transformer encoder works on fine-grained patches to excavate
the short-range local cues. Each transformer encoder is followed by an
elaborately designed Bi-directional Multi-Level Aggregation decoder to achieve
high-resolution features. Finally, the global context and local cues are
combined by a Feature Fusion Module and fed into a decision head for edge
prediction. Extensive experiments on BSDS500, NYUDv2, and Multicue demonstrate
the superiority of EDTER in comparison with state-of-the-arts.
- Abstract(参考訳): 畳み込みニューラルネットワークは、コンテキストとセマンティクスの特徴を段階的に探究することで、エッジ検出において大きな進歩を遂げている。
しかし、受容野の拡大に伴い、地域の詳細は徐々に抑制される。
近年、視覚変換器は長距離依存を捕捉する優れた能力を示している。
そこで本研究では,画像コンテキスト情報と詳細な局所的手がかりを同時に活用することにより,明瞭で鮮明な物体境界と有意義なエッジを抽出できる,新しいトランスフォーマティブ型エッジ検出器 \emph{edge detection transformer (edter)"を提案する。
EDTERは2段階で動作する。
ステージIでは、粗い画像パッチの長距離グローバルコンテキストをキャプチャするためにグローバルトランスフォーマーエンコーダが使用される。
そしてステージIIでは、局所変圧器エンコーダが微細なパッチを使って短距離局所キューを掘削する。
各トランスコーダは精巧に設計された双方向多レベルアグリゲーションデコーダによって高分解能化される。
最後に、グローバルコンテキストとローカルキューはFeature Fusion Moduleによって結合され、エッジ予測のための決定ヘッドに入力される。
BSDS500、NYUDv2、Multicueの大規模な実験は、最先端技術と比較してEDTERの優位性を示している。
関連論文リスト
- LGFCTR: Local and Global Feature Convolutional Transformer for Image
Matching [8.503217766507584]
局所的文脈とグローバル構造の両方を捉えるために,新しい畳み込み変換器を提案する。
普遍的なFPNライクなフレームワークは、トランスフォーマーによるクロスデコーダと同様に、自己エンコーダ内のグローバル構造をキャプチャする。
新たなレグレッションベースのサブピクセルリファインメントモジュールは、微粒なウィンドウ特徴を微粒な位置ずれレグレッションに活用する。
論文 参考訳(メタデータ) (2023-11-29T12:06:19Z) - TransY-Net:Learning Fully Transformer Networks for Change Detection of
Remote Sensing Images [64.63004710817239]
リモートセンシング画像CDのためのトランスフォーマーベース学習フレームワークTransY-Netを提案する。
グローバルな視点からの特徴抽出を改善し、ピラミッド方式で多段階の視覚的特徴を組み合わせる。
提案手法は,4つの光学式および2つのSAR画像CDベンチマーク上での最先端性能を実現する。
論文 参考訳(メタデータ) (2023-10-22T07:42:19Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - Boosting Salient Object Detection with Transformer-based Asymmetric
Bilateral U-Net [19.21709807149165]
既存のSOD法は主にスキップ接続を持つU字型畳み込みニューラルネットワーク(CNN)に依存している。
SODのグローバル表現とローカル表現の両方を学ぶためのトランスフォーマーベースの非対称バイラテラルU-Net(ABiU-Net)を提案する。
ABiU-Netは、従来の最先端SOD法に対して好意的に機能する。
論文 参考訳(メタデータ) (2021-08-17T19:45:28Z) - Unifying Global-Local Representations in Salient Object Detection with Transformer [55.23033277636774]
我々は、視覚変換器という新しいアテンションベースのエンコーダを有能な物体検出に導入する。
非常に浅い層でのグローバルビューでは、トランスフォーマーエンコーダはより局所的な表現を保持する。
提案手法は,5つのベンチマークにおいて,他のFCN法およびトランスフォーマー法よりも優れていた。
論文 参考訳(メタデータ) (2021-08-05T17:51:32Z) - Visual Saliency Transformer [127.33678448761599]
RGBとRGB-Dの液状物体検出(SOD)のための、純粋な変圧器であるVST(Visual Saliency Transformer)に基づく新しい統一モデルを開発しました。
イメージパッチを入力として取り、トランスフォーマーを利用してイメージパッチ間のグローバルコンテキストを伝搬する。
実験結果から,RGBとRGB-D SODのベンチマークデータセットにおいて,本モデルが既存の最新結果を上回っていることが示された。
論文 参考訳(メタデータ) (2021-04-25T08:24:06Z) - Transformers Solve the Limited Receptive Field for Monocular Depth
Prediction [82.90445525977904]
畳み込みニューラルネットワークとトランスの両方の恩恵を受けるアーキテクチャであるTransDepthを提案します。
連続ラベルを含む画素単位での予測問題にトランスフォーマーを適用する最初の論文である。
論文 参考訳(メタデータ) (2021-03-22T18:00:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。