論文の概要: Prompt Learning for Oriented Power Transmission Tower Detection in High-Resolution SAR Images
- arxiv url: http://arxiv.org/abs/2404.01074v1
- Date: Mon, 1 Apr 2024 12:16:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 22:35:23.895029
- Title: Prompt Learning for Oriented Power Transmission Tower Detection in High-Resolution SAR Images
- Title(参考訳): 高分解能SAR画像における指向性送電塔検出のプロンプト学習
- Authors: Tianyang Li, Chao Wang, Hong Zhang,
- Abstract要約: 本稿では,マルチモーダル情報学習のためのオブジェクト指向物体検出器(P2Det)に即時学習を導入する。
P2Detはマルチモーダルデータ間のスパースプロンプトコーディングとクロスアテンションを含む。
実験により,高分解能SAR画像に対する提案モデルの有効性が示された。
- 参考スコア(独自算出の注目度): 7.7066349736589554
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Detecting transmission towers from synthetic aperture radar (SAR) images remains a challenging task due to the comparatively small size and side-looking geometry, with background clutter interference frequently hindering tower identification. A large number of interfering signals superimposes the return signal from the tower. We found that localizing or prompting positions of power transmission towers is beneficial to address this obstacle. Based on this revelation, this paper introduces prompt learning into the oriented object detector (P2Det) for multimodal information learning. P2Det contains the sparse prompt coding and cross-attention between the multimodal data. Specifically, the sparse prompt encoder (SPE) is proposed to represent point locations, converting prompts into sparse embeddings. The image embeddings are generated through the Transformer layers. Then a two-way fusion module (TWFM) is proposed to calculate the cross-attention of the two different embeddings. The interaction of image-level and prompt-level features is utilized to address the clutter interference. A shape-adaptive refinement module (SARM) is proposed to reduce the effect of aspect ratio. Extensive experiments demonstrated the effectiveness of the proposed model on high-resolution SAR images. P2Det provides a novel insight for multimodal object detection due to its competitive performance.
- Abstract(参考訳): 合成開口レーダ(SAR)画像から透過塔を検出することは、比較的小さな大きさと横方向の形状のため困難な課題であり、背景の乱れが塔の識別を妨げている。
多数の干渉信号が塔からの帰還信号を重畳する。
この障害に対処するためには,送電塔の位置の特定・促進が有用であることがわかった。
本発表では,マルチモーダル情報学習のためのオブジェクト指向物体検出器 (P2Det) に即時学習を導入する。
P2Detはマルチモーダルデータ間のスパースプロンプトコーディングとクロスアテンションを含む。
具体的には、スパースプロンプトエンコーダ(SPE)がポイント位置を表すために提案され、プロンプトをスパース埋め込みに変換する。
イメージ埋め込みはTransformer層を通じて生成される。
次に、2つの異なる埋め込みの相互配置を計算するために、双方向融合モジュール(TWFM)を提案する。
画像レベルの特徴とプロンプトレベルの特徴の相互作用を利用して、乱雑な干渉に対処する。
アスペクト比の影響を低減するため,形状適応リファインメントモジュール (SARM) を提案する。
高分解能SAR画像に対する提案手法の有効性を実験により検証した。
P2Detは、競合性能のため、マルチモーダルオブジェクト検出のための新しい洞察を提供する。
関連論文リスト
- Renormalized Connection for Scale-preferred Object Detection in Satellite Imagery [51.83786195178233]
我々は、効率的な特徴抽出の観点から再正規化群理論を実装するために、知識発見ネットワーク(KDN)を設計する。
KDN上の再正規化接続(RC)は、マルチスケール特徴の「相乗的焦点」を可能にする。
RCはFPNベースの検出器のマルチレベル特徴の分割・対数機構を幅広いスケールで予測されたタスクに拡張する。
論文 参考訳(メタデータ) (2024-09-09T13:56:22Z) - Multimodal Transformer Using Cross-Channel attention for Object Detection in Remote Sensing Images [1.662438436885552]
マルチモーダル融合は、複数のモーダルからのデータを融合することで精度を高めることが決定されている。
早期に異なるチャネル間の関係をマッピングするための新しいマルチモーダル融合戦略を提案する。
本手法は,中期・後期の手法とは対照的に,早期の融合に対処することにより,既存の手法と比較して,競争力や性能に優れる。
論文 参考訳(メタデータ) (2023-10-21T00:56:11Z) - A Dual Attentive Generative Adversarial Network for Remote Sensing Image
Change Detection [6.906936669510404]
本稿では,高分解能なリモートセンシング画像変化検出タスクを実現するために,二重注意生成対向ネットワークを提案する。
DAGANフレームワークは、85.01%がIoU、91.48%がF1スコアであり、LEVIRデータセットの先進的な手法よりもパフォーマンスが良い。
論文 参考訳(メタデータ) (2023-10-03T08:26:27Z) - Mutual Information-driven Triple Interaction Network for Efficient Image
Dehazing [54.168567276280505]
画像デハージングのための相互情報駆動型トリプルインタラクションネットワーク(MITNet)を提案する。
振幅誘導ヘイズ除去と呼ばれる第1段階は、ヘイズ除去のためのヘイズ画像の振幅スペクトルを復元することを目的としている。
第2段階は位相誘導構造が洗練され、位相スペクトルの変換と微細化を学ぶことに尽力した。
論文 参考訳(メタデータ) (2023-08-14T08:23:58Z) - Bridging the View Disparity of Radar and Camera Features for Multi-modal
Fusion 3D Object Detection [6.959556180268547]
本稿では3次元物体検出にミリ波レーダとカメラセンサ融合を用いる方法について述べる。
より優れた特徴表現のための鳥眼ビュー(BEV)における特徴レベル融合を実現する新しい手法を提案する。
論文 参考訳(メタデータ) (2022-08-25T13:21:37Z) - RelationRS: Relationship Representation Network for Object Detection in
Aerial Images [15.269897893563417]
航空画像における物体検出のための関係表現ネットワーク(RelationRS)を提案する。
デュアルリレーションモジュールは、異なるスケールの特徴間の潜在的な関係を学習し、異なるパッチから異なるシーン間の関係を同じイテレーションで学習する。
複雑な背景を持つ画像の物体検出効果を改善するため、BVR(Bridging visual representations Module)が空中画像のフィールドに導入される。
論文 参考訳(メタデータ) (2021-10-13T14:02:33Z) - M2TR: Multi-modal Multi-scale Transformers for Deepfake Detection [74.19291916812921]
Deepfake技術によって生成された鍛造画像は、デジタル情報の信頼性に深刻な脅威をもたらします。
本稿では,Deepfake検出のための微妙な操作アーチファクトを異なるスケールで捉えることを目的とする。
最先端の顔スワッピングと顔の再現方法によって生成された4000のDeepFakeビデオで構成される高品質のDeepFakeデータセットSR-DFを紹介します。
論文 参考訳(メタデータ) (2021-04-20T05:43:44Z) - High-resolution Depth Maps Imaging via Attention-based Hierarchical
Multi-modal Fusion [84.24973877109181]
誘導DSRのための新しい注意に基づく階層型マルチモーダル融合ネットワークを提案する。
本手法は,再現精度,動作速度,メモリ効率の点で最先端手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2021-04-04T03:28:33Z) - TFill: Image Completion via a Transformer-Based Architecture [69.62228639870114]
画像補完を無方向性シーケンス対シーケンス予測タスクとして扱うことを提案する。
トークン表現には,小かつ重複しないRFを持つ制限型CNNを用いる。
第2フェーズでは、可視領域と発生領域の外観整合性を向上させるために、新しい注意認識層(aal)を導入する。
論文 参考訳(メタデータ) (2021-04-02T01:42:01Z) - Anchor-free Small-scale Multispectral Pedestrian Detection [88.7497134369344]
適応型単一段アンカーフリーベースアーキテクチャにおける2つのモードの効果的かつ効率的な多重スペクトル融合法を提案する。
我々は,直接的境界ボックス予測ではなく,対象の中心と規模に基づく歩行者表現の学習を目指す。
その結果,小型歩行者の検出における本手法の有効性が示唆された。
論文 参考訳(メタデータ) (2020-08-19T13:13:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。