論文の概要: Unpaired Object-Level SAR-to-Optical Image Translation for Aircraft with Keypoints-Guided Diffusion Models
- arxiv url: http://arxiv.org/abs/2503.19798v1
- Date: Tue, 25 Mar 2025 16:05:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 16:53:59.123837
- Title: Unpaired Object-Level SAR-to-Optical Image Translation for Aircraft with Keypoints-Guided Diffusion Models
- Title(参考訳): キーポイント誘導拡散モデルを用いた航空機用未ペアオブジェクトレベルSAR-to-Optical画像変換
- Authors: Ruixi You, Hecheng Jia, Feng Xu,
- Abstract要約: SAR画像を光学画像に変換することは、下流タスクの解釈とサポートを強化するための有望な解決策である。
本研究では,無人航空機のSAR-光画像変換のためのキーポイント誘導拡散モデル(KeypointDiff)を提案する。
- 参考スコア(独自算出の注目度): 4.6570959687411975
- License:
- Abstract: Synthetic Aperture Radar (SAR) imagery provides all-weather, all-day, and high-resolution imaging capabilities but its unique imaging mechanism makes interpretation heavily reliant on expert knowledge, limiting interpretability, especially in complex target tasks. Translating SAR images into optical images is a promising solution to enhance interpretation and support downstream tasks. Most existing research focuses on scene-level translation, with limited work on object-level translation due to the scarcity of paired data and the challenge of accurately preserving contour and texture details. To address these issues, this study proposes a keypoint-guided diffusion model (KeypointDiff) for SAR-to-optical image translation of unpaired aircraft targets. This framework introduces supervision on target class and azimuth angle via keypoints, along with a training strategy for unpaired data. Based on the classifier-free guidance diffusion architecture, a class-angle guidance module (CAGM) is designed to integrate class and angle information into the diffusion generation process. Furthermore, adversarial loss and consistency loss are employed to improve image fidelity and detail quality, tailored for aircraft targets. During sampling, aided by a pre-trained keypoint detector, the model eliminates the requirement for manually labeled class and azimuth information, enabling automated SAR-to-optical translation. Experimental results demonstrate that the proposed method outperforms existing approaches across multiple metrics, providing an efficient and effective solution for object-level SAR-to-optical translation and downstream tasks. Moreover, the method exhibits strong zero-shot generalization to untrained aircraft types with the assistance of the keypoint detector.
- Abstract(参考訳): 合成開口レーダ(SAR)画像は、全天候、全日、高解像度の撮像機能を提供するが、そのユニークな撮像機構は、特に複雑な目標タスクにおいて、解釈可能性を制限する専門家の知識に大きく依存する。
SAR画像を光学画像に変換することは、下流タスクの解釈とサポートを強化するための有望な解決策である。
既存の研究はシーンレベルの翻訳に重点を置いており、ペアデータの不足や輪郭やテクスチャの詳細を正確に保存することの難しさから、オブジェクトレベルの翻訳に限られている。
そこで本研究では,SAR-光画像変換のためのキーポイント誘導拡散モデル(KeypointDiff)を提案する。
このフレームワークは、キーポイントを介してターゲットクラスと方位角を監督し、不正なデータに対するトレーニング戦略を導入する。
クラスアングル誘導モジュール(CAGM)は,クラスおよびアングル情報を拡散生成プロセスに統合するために設計されている。
さらに、航空機の目標に適した画像の忠実度と細部品質を向上させるために、対向損失と整合性損失を用いる。
事前訓練されたキーポイント検出器によって支援されたサンプリングにおいて、モデルは手動でラベル付けされたクラスと方位情報の要求を排除し、SARから光学への自動翻訳を可能にする。
実験結果から,提案手法は複数のメトリクスをまたいだ既存手法よりも優れており,オブジェクトレベルのSAR-to-optical Translationとダウンストリームタスクに対して,効率的かつ効果的なソリューションを提供する。
さらに、キーポイント検出器の助けを借りて、訓練されていない航空機に対して強力なゼロショットの一般化を示す。
関連論文リスト
- Seg-CycleGAN : SAR-to-optical image translation guided by a downstream task [12.1644771398574]
本文は,GANに基づくSAR-to-optical image translation法であるSeeg-CycleGANを提案する。
本手法は,船の標的セマンティックセグメンテーションの下流タスクを利用して,画像翻訳ネットワークのトレーニングを指導する。
SAR-to-optical Translationタスクにおける基礎モデルアノテーション付きデータセットの可能性を明らかにする。
論文 参考訳(メタデータ) (2024-08-11T14:01:21Z) - SAFE: a SAR Feature Extractor based on self-supervised learning and masked Siamese ViTs [5.961207817077044]
マスク付きシームズ・ビジョン・トランスフォーマーをベースとした新しい自己教師型学習フレームワークを提案し,SAFEと命名された汎用SAR機能エクストラクタを提案する。
提案手法は,厳密で一般化可能な特徴を抽出し,ラベルのないSARデータに基づいてモデルを訓練するために,対照的な学習原理を利用する。
サブアパーチャ分解や非特異化など,SAR画像特有のデータ拡張技術を導入する。
我々のネットワークは、評価に使用されるセンサーの訓練を受けなくても、数ショットの分類やセグメンテーションタスクにおいて、他の最先端の手法と競合したり、超えたりしています。
論文 参考訳(メタデータ) (2024-06-30T23:11:20Z) - DiAD: A Diffusion-based Framework for Multi-class Anomaly Detection [55.48770333927732]
本稿では,拡散型異常検出(Difusion-based Anomaly Detection, DAD)フレームワークを提案する。
画素空間オートエンコーダ、安定拡散の復調ネットワークに接続する潜在空間セマンティックガイド(SG)ネットワーク、特徴空間事前学習機能抽出器から構成される。
MVTec-ADとVisAデータセットの実験は、我々のアプローチの有効性を実証している。
論文 参考訳(メタデータ) (2023-12-11T18:38:28Z) - Innovative Horizons in Aerial Imagery: LSKNet Meets DiffusionDet for
Advanced Object Detection [55.2480439325792]
本稿では,LSKNetのバックボーンをDiffusionDetヘッドに統合したオブジェクト検出モデルの詳細な評価を行う。
提案手法は平均精度(MAP)を約45.7%向上させる。
この進歩は、提案された修正の有効性を強調し、航空画像解析の新しいベンチマークを設定する。
論文 参考訳(メタデータ) (2023-11-21T19:49:13Z) - Exploring Resolution and Degradation Clues as Self-supervised Signal for
Low Quality Object Detection [77.3530907443279]
劣化した低解像度画像中の物体を検出するための,新しい自己教師型フレームワークを提案する。
本手法は, 既存手法と比較して, 異変劣化状況に直面する場合に比べ, 優れた性能を示した。
論文 参考訳(メタデータ) (2022-08-05T09:36:13Z) - Knowledge Distillation for Oriented Object Detection on Aerial Images [1.827510863075184]
本稿では,KD-RNetの知識蒸留による空中画像の回転物体検出のためのモデル圧縮手法を提案する。
大規模空中物体検出データセット(DOTA)による実験結果から,提案したKD-RNetモデルにより,パラメータ数を削減した平均値精度(mAP)が向上し,同時にKD-RNetは,基底アノテーションと高い重なり合う高品質検出を提供することで,性能を向上することを示した。
論文 参考訳(メタデータ) (2022-06-20T14:24:16Z) - Learning Efficient Representations for Enhanced Object Detection on
Large-scene SAR Images [16.602738933183865]
SAR(Synthetic Aperture Radar)画像のターゲットの検出と認識は難しい問題である。
近年開発されたディープラーニングアルゴリズムは,SAR画像の固有の特徴を自動的に学習することができる。
本稿では,効率的かつ堅牢なディープラーニングに基づくターゲット検出手法を提案する。
論文 参考訳(メタデータ) (2022-01-22T03:25:24Z) - RRNet: Relational Reasoning Network with Parallel Multi-scale Attention
for Salient Object Detection in Optical Remote Sensing Images [82.1679766706423]
光リモートセンシング画像(RSI)のためのSODは、光学RSIから視覚的に特徴的な物体や領域を探索・抽出することを目的としている。
光学RSIにおけるSODに並列なマルチスケールアテンションを持つリレーショナル推論ネットワークを提案する。
提案するRRNetは,既存の最先端SODコンペティタよりも質的,定量的に優れている。
論文 参考訳(メタデータ) (2021-10-27T07:18:32Z) - PeaceGAN: A GAN-based Multi-Task Learning Method for SAR Target Image
Generation with a Pose Estimator and an Auxiliary Classifier [50.17500790309477]
SARターゲット画像生成のための新しいGANベースのマルチタスク学習(MTL)手法であるPeaceGANを提案する。
PeaceGANはポーズ角とターゲットクラス情報の両方を使用し、目的のポーズ角で所望のターゲットクラスのSARターゲット画像を作成することができる。
論文 参考訳(メタデータ) (2021-03-29T10:03:09Z) - Sparse Signal Models for Data Augmentation in Deep Learning ATR [0.8999056386710496]
ドメイン知識を取り入れ,データ集約学習アルゴリズムの一般化能力を向上させるためのデータ拡張手法を提案する。
本研究では,空間領域における散乱中心のスパース性とアジムタル領域における散乱係数の滑らかな変動構造を活かし,過パラメータモデルフィッティングの問題を解く。
論文 参考訳(メタデータ) (2020-12-16T21:46:33Z) - Dense Attention Fluid Network for Salient Object Detection in Optical
Remote Sensing Images [193.77450545067967]
光リモートセンシング画像(RSI)における有意物体検出のためのエンド・ツー・エンドDense Attention Fluid Network(DAFNet)を提案する。
GCA(Global Context-Aware Attention)モジュールは、長距離の意味的関係を適応的にキャプチャするために提案される。
我々は、2000枚の画像とピクセルワイドなサリエンシアノテーションを含むSODのための新しい、挑戦的な光学RSIデータセットを構築した。
論文 参考訳(メタデータ) (2020-11-26T06:14:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。