論文の概要: EdgeNAT: Transformer for Efficient Edge Detection
- arxiv url: http://arxiv.org/abs/2408.10527v1
- Date: Tue, 20 Aug 2024 04:04:22 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-21 15:13:44.007710
- Title: EdgeNAT: Transformer for Efficient Edge Detection
- Title(参考訳): EdgeNAT: 効率的なエッジ検出のためのトランス
- Authors: Jinghuai Jie, Yan Guo, Guixing Wu, Junmin Wu, Baojian Hua,
- Abstract要約: エンコーダとしてDiNATを用いた一段変圧器を用いたエッジ検出器EdgeNATを提案する。
複数のデータセットに対する実験により,RGB画像と深度画像の両方で最先端の性能が得られた。
- 参考スコア(独自算出の注目度): 2.34098299695111
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Transformers, renowned for their powerful feature extraction capabilities, have played an increasingly prominent role in various vision tasks. Especially, recent advancements present transformer with hierarchical structures such as Dilated Neighborhood Attention Transformer (DiNAT), demonstrating outstanding ability to efficiently capture both global and local features. However, transformers' application in edge detection has not been fully exploited. In this paper, we propose EdgeNAT, a one-stage transformer-based edge detector with DiNAT as the encoder, capable of extracting object boundaries and meaningful edges both accurately and efficiently. On the one hand, EdgeNAT captures global contextual information and detailed local cues with DiNAT, on the other hand, it enhances feature representation with a novel SCAF-MLA decoder by utilizing both inter-spatial and inter-channel relationships of feature maps. Extensive experiments on multiple datasets show that our method achieves state-of-the-art performance on both RGB and depth images. Notably, on the widely used BSDS500 dataset, our L model achieves impressive performances, with ODS F-measure and OIS F-measure of 86.0%, 87.6% for multi-scale input,and 84.9%, and 86.3% for single-scale input, surpassing the current state-of-the-art EDTER by 1.2%, 1.1%, 1.7%, and 1.6%, respectively. Moreover, as for throughput, our approach runs at 20.87 FPS on RTX 4090 GPU with single-scale input. The code for our method will be released soon.
- Abstract(参考訳): トランスフォーマーは強力な特徴抽出能力で知られており、様々な視覚タスクにおいて顕著な役割を担っている。
特に近年のDilated Neighborhood Attention Transformer (DiNAT) のような階層構造を持つ変圧器は, グローバル・ローカル両方の特徴を効率的に捉える能力に優れていた。
しかし、エッジ検出におけるトランスの応用は十分に活用されていない。
本稿では,DiNATをエンコーダとする一段変圧器を用いたエッジ検出器EdgeNATを提案する。
一方、EdgeNATは、グローバルなコンテキスト情報と、DiNATによる詳細なローカルキューをキャプチャする一方で、特徴マップの空間的およびチャネル間関係を利用して、新しいSCAF-MLAデコーダによる特徴表現を強化する。
複数のデータセットに対する大規模な実験により,RGB画像と深度画像の両方で最先端の性能が得られた。
特に,広く使用されているBSDS500データセットでは,ODS F測定値が86.0%,OIS F測定値が87.6%,マルチスケール入力値が84.9%,シングルスケール入力値が86.3%,現在の最先端EDTERが1.2%,1.1%,1.7%,そして1.6%をそれぞれ上回っている。
さらにスループットに関しては,RTX 4090 GPU上で20.87 FPSでシングルスケール入力を行う。
私たちのメソッドのコードはまもなくリリースされます。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Efficient Remote Sensing Segmentation With Generative Adversarial
Transformer [5.728847418491545]
本稿では,高精度なセマンティックセマンティックセグメンテーションを実現するためのGATrans(Generative Adversarial Transfomer)を提案する。
このフレームワークはGTNet(Global Transformer Network)をジェネレータとして利用し、マルチレベル機能を効率的に抽出する。
ベイヒンゲンデータセットの広範囲な実験により、我々のアプローチの有効性を検証し、平均F1スコアは90.17%、総合精度は91.92%に達した。
論文 参考訳(メタデータ) (2023-10-02T15:46:59Z) - DWRSeg: Rethinking Efficient Acquisition of Multi-scale Contextual
Information for Real-time Semantic Segmentation [10.379708894083217]
本研究では,元の単一ステップ法を2段階に分割し,高効率なマルチスケール特徴抽出手法を提案する。
NVIDIA GeForce GTX 1080 TiカードのCityscapesテストセットの72.7%のmIoUを319.5 FPSで達成し、69.5 FPSと0.8% mIoUの最新の手法を超える。
論文 参考訳(メタデータ) (2022-12-02T13:55:41Z) - StyleNAT: Giving Each Head a New Perspective [71.84791905122052]
高い効率と柔軟性を備えた高品質な画像生成をターゲットとした,StyleNATと呼ばれる新しいトランスフォーマーベースのフレームワークを提案する。
私たちのモデルの中核となるのは、ローカルおよびグローバルな情報を捉えるために注意を分割する、慎重に設計されたフレームワークです。
StyleNATはFFHQ-256で新たなSOTA FIDスコアを2.046で獲得し、StyleGAN-XLやHITやStyleSwinといったトランスフォーマーのような畳み込みモデルで先行芸術を圧倒した。
論文 参考訳(メタデータ) (2022-11-10T18:55:48Z) - EdgeNeXt: Efficiently Amalgamated CNN-Transformer Architecture for
Mobile Vision Applications [68.35683849098105]
入力テンソルを複数のチャネルグループに分割するSDTAエンコーダを導入する。
1.3Mパラメータを持つEdgeNeXtモデルでは、ImageNet-1Kで71.2%のTop-1精度を実現している。
パラメータ5.6MのEdgeNeXtモデルでは、ImageNet-1Kで79.4%のTop-1精度を実現しています。
論文 参考訳(メタデータ) (2022-06-21T17:59:56Z) - Unifying Voxel-based Representation with Transformer for 3D Object
Detection [143.91910747605107]
マルチモード3Dオブジェクト検出のための統一フレームワークUVTRを提案する。
提案手法は, ボクセル空間におけるマルチモーダリティ表現を統一し, 高精度かつ堅牢な単一モード・クロスモーダリティ3D検出を実現することを目的とする。
UVTRは、69.7%、55.1%、71.1%のNDSで、それぞれLiDAR、カメラ、マルチモダリティの入力を行う。
論文 参考訳(メタデータ) (2022-06-01T17:02:40Z) - SwinNet: Swin Transformer drives edge-aware RGB-D and RGB-T salient
object detection [12.126413875108993]
本稿では,RGB-D と RGB-T の有向物体検出のための相互モード融合モデル SwinNet を提案する。
提案モデルは,RGB-DデータセットとRGB-Tデータセットの最先端モデルより優れている。
論文 参考訳(メタデータ) (2022-04-12T07:37:39Z) - A Multi-Stage Duplex Fusion ConvNet for Aerial Scene Classification [4.061135251278187]
マルチステージ二重核融合ネットワーク (MSDF-Net) を開発した。
MSDF-NetはDFblockを備えた多段構造で構成されている。
広範に使用されている3つの航空シーン分類ベンチマークで実験が行われた。
論文 参考訳(メタデータ) (2022-03-29T09:27:53Z) - TransCMD: Cross-Modal Decoder Equipped with Transformer for RGB-D
Salient Object Detection [86.94578023985677]
本研究では,グローバルな情報アライメントと変革の観点から,この課題を再考する。
具体的には、トランスCMD(TransCMD)は、複数のクロスモーダル統合ユニットをカスケードして、トップダウントランスフォーマーベースの情報伝達経路を構築する。
7つのRGB-D SODベンチマークデータセットの実験結果から、単純な2ストリームエンコーダデコーダフレームワークが、最先端のCNNベースの手法を超越できることが示されている。
論文 参考訳(メタデータ) (2021-12-04T15:45:34Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - CSWin Transformer: A General Vision Transformer Backbone with
Cross-Shaped Windows [99.36226415086243]
汎用視覚タスクのための効率的なトランスフォーマーベースバックボーンCSWin Transformerを提案する。
トランスフォーマー設計における課題は、グローバルな自己アテンションが計算に非常に高価であるのに対して、ローカルな自己アテンションはトークン間の相互作用のフィールドを制限することが多いことである。
論文 参考訳(メタデータ) (2021-07-01T17:59:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。