論文の概要: DUFormer: Solving Power Line Detection Task in Aerial Images using
Semantic Segmentation
- arxiv url: http://arxiv.org/abs/2304.05821v2
- Date: Thu, 31 Aug 2023 14:15:51 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-01 20:30:28.361701
- Title: DUFormer: Solving Power Line Detection Task in Aerial Images using
Semantic Segmentation
- Title(参考訳): DUFormer:セマンティックセグメンテーションを用いた航空画像における電力線検出タスクの解決
- Authors: Deyu An, Qiang Zhang, Jianshu Chao, Ting Li, Feng Qiao, Yong Deng,
Zhenpeng Bian
- Abstract要約: 無人航空機(UAV)は、電力線を検査したり高解像度の空中画像を撮影するために頻繁に使用される。
この問題に対処するために,航空画像中の電力線を明示的に検出するセマンティックセグメンテーションアルゴリズムであるDUFormerを導入する。
提案手法は,TTPLAデータセット上での電力線セグメンテーションにおけるすべての最先端手法より優れている。
- 参考スコア(独自算出の注目度): 17.77548837421917
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Unmanned aerial vehicles (UAVs) are frequently used for inspecting power
lines and capturing high-resolution aerial images. However, detecting power
lines in aerial images is difficult,as the foreground data(i.e, power lines) is
small and the background information is abundant.To tackle this problem, we
introduce DUFormer, a semantic segmentation algorithm explicitly designed to
detect power lines in aerial images. We presuppose that it is advantageous to
train an efficient Transformer model with sufficient feature extraction using a
convolutional neural network(CNN) with a strong inductive bias.With this goal
in mind, we introduce a heavy token encoder that performs overlapping feature
remodeling and tokenization. The encoder comprises a pyramid CNN feature
extraction module and a power line feature enhancement module.After successful
local feature extraction for power lines, feature fusion is conducted.Then,the
Transformer block is used for global modeling. The final segmentation result is
achieved by amalgamating local and global features in the decode head.Moreover,
we demonstrate the importance of the joint multi-weight loss function in power
line segmentation. Our experimental results show that our proposed method
outperforms all state-of-the-art methods in power line segmentation on the
publicly accessible TTPLA dataset.
- Abstract(参考訳): 無人航空機(UAV)は電力線を検査したり高解像度の空中画像を撮影するために頻繁に使用される。
しかし、空中画像における電力線の検出は困難であり、前景データ(すなわち電力線)が小さく、背景情報が豊富であるため、この問題に取り組むため、航空画像における電力線を検出するために明示的に設計されたセマンティックセグメンテーションアルゴリズムであるduformerを導入する。
我々は,畳み込み型ニューラルネットワーク(CNN)を用いて十分な特徴抽出を施した効率的なトランスフォーマーモデルをトレーニングすることが有利であると仮定する。この目標を念頭に置いて,重複する特徴リモデリングとトークン化を行う重トークンエンコーダを導入する。
本発明のエンコーダは、ピラミッドCNN特徴抽出モジュールと電力線特徴拡張モジュールとから構成され、電力線に対する局所特徴抽出の成功により、特徴融合を行い、グローバルモデリングにTransformerブロックを使用する。
最終的なセグメンテーション結果は,デコードヘッドの局所的特徴と大域的な特徴を融合することにより達成される。さらに,電力線セグメンテーションにおける統合多重損失関数の重要性を実証する。
実験の結果,提案手法はTTPLAデータセット上での電力線分割における最先端の手法よりも優れていた。
関連論文リスト
- CT-MVSNet: Efficient Multi-View Stereo with Cross-scale Transformer [8.962657021133925]
クロススケールトランス(CT)プロセスは、追加計算なしで異なる段階の表現を特徴付ける。
複数のスケールで異なる対話型アテンションの組み合わせを利用する適応型マッチング認識変換器(AMT)を導入する。
また、より細かなコストボリューム構成に大まかにグローバルな意味情報を埋め込む2機能ガイドアグリゲーション(DFGA)も提案する。
論文 参考訳(メタデータ) (2023-12-14T01:33:18Z) - Effective Image Tampering Localization via Enhanced Transformer and
Co-attention Fusion [5.691973573807887]
本稿では,2分岐拡張型トランスフォーマーエンコーダを用いた画像改ざんネットワーク(EITLNet)を提案する。
RGBとノイズストリームから抽出した特徴は、座標注意に基づく融合モジュールによって効果的に融合される。
論文 参考訳(メタデータ) (2023-09-17T15:43:06Z) - ABC: Attention with Bilinear Correlation for Infrared Small Target
Detection [4.7379300868029395]
CNNに基づく深層学習法は、赤外線小ターゲット(IRST)のセグメンテーションに有効ではない
バイリニア相関(ABC)を用いた注目モデルを提案する。
ABCはトランスアーキテクチャに基づいており、特徴抽出と融合のための新しいアテンション機構を備えた畳み込み線形核融合トランス (CLFT) モジュールを含んでいる。
論文 参考訳(メタデータ) (2023-03-18T03:47:06Z) - CDDFuse: Correlation-Driven Dual-Branch Feature Decomposition for
Multi-Modality Image Fusion [138.40422469153145]
本稿では,CDDFuse(Relationed-Driven Feature Decomposition Fusion)ネットワークを提案する。
近赤外可視画像融合や医用画像融合など,複数の融合タスクにおいてCDDFuseが有望な結果をもたらすことを示す。
論文 参考訳(メタデータ) (2022-11-26T02:40:28Z) - Cross-receptive Focused Inference Network for Lightweight Image
Super-Resolution [64.25751738088015]
トランスフォーマーに基づく手法は、単一画像超解像(SISR)タスクにおいて顕著な性能を示した。
動的に特徴を抽出するために文脈情報を組み込む必要がある変換器は無視される。
我々は,CNNとTransformerを混合したCTブロックのカスケードで構成される,軽量なクロスレセプティブ・フォーカスド・推論・ネットワーク(CFIN)を提案する。
論文 参考訳(メタデータ) (2022-07-06T16:32:29Z) - Semantic Labeling of High Resolution Images Using EfficientUNets and
Transformers [5.177947445379688]
畳み込みニューラルネットワークとディープトランスを組み合わせた新しいセグメンテーションモデルを提案する。
提案手法は,最先端技術と比較してセグメント化精度が向上することを示す。
論文 参考訳(メタデータ) (2022-06-20T12:03:54Z) - An Extendable, Efficient and Effective Transformer-based Object Detector [95.06044204961009]
我々は、視覚・検出変換器(ViDT)を統合し、効果的で効率的な物体検出装置を構築する。
ViDTは、最近のSwin Transformerをスタンドアロンのオブジェクト検出器に拡張するために、再構成されたアテンションモジュールを導入した。
オブジェクト検出とインスタンスセグメンテーションのための共同タスク学習をサポートするために、ViDT+に拡張する。
論文 参考訳(メタデータ) (2022-04-17T09:27:45Z) - PLGAN: Generative Adversarial Networks for Power-Line Segmentation in
Aerial Images [15.504887854179666]
PLGANは、異なる背景を持つ空中画像から電力線を分割するシンプルで効果的な方法である。
生成した画像の適切な形状を高品質な特徴埋め込みに活用する。
提案するPLGANは, セマンティックセグメンテーションや線検出において, 従来の最先端手法よりも優れていた。
論文 参考訳(メタデータ) (2022-04-14T21:43:31Z) - Transformer-based Network for RGB-D Saliency Detection [82.6665619584628]
RGB-Dサリエンシ検出の鍵は、2つのモードにわたる複数のスケールで情報を完全なマイニングとヒューズすることである。
コンバータは機能融合と機能拡張の両面において高い有効性を示す一様操作であることを示す。
提案するネットワークは,最先端のRGB-D値検出手法に対して良好に動作する。
論文 参考訳(メタデータ) (2021-12-01T15:53:58Z) - PnP-DETR: Towards Efficient Visual Analysis with Transformers [146.55679348493587]
近年、DeTRはトランスフォーマーを用いたソリューションビジョンタスクの先駆者であり、画像特徴マップを直接オブジェクト結果に変換する。
最近の変圧器を用いた画像認識モデルとTTは、一貫した効率向上を示す。
論文 参考訳(メタデータ) (2021-09-15T01:10:30Z) - MFGNet: Dynamic Modality-Aware Filter Generation for RGB-T Tracking [72.65494220685525]
可視データと熱データ間のメッセージ通信を促進するために,新しい動的モダリティ対応フィルタ生成モジュール(MFGNet)を提案する。
我々は、2つの独立ネットワークを持つ動的モダリティ対応フィルタを生成し、その可視フィルタとサーマルフィルタをそれぞれ、対応する入力特徴写像上で動的畳み込み演算を行う。
重閉塞,高速移動,外見による問題に対処するため,新たな方向認識型目標誘導型アテンション機構を活用することで,共同で局所的・グローバル検索を行うことを提案する。
論文 参考訳(メタデータ) (2021-07-22T03:10:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。