論文の概要: Component-Aware Structure-Preserving Style Transfer for Satellite Visual Sim2Real Data Construction
- arxiv url: http://arxiv.org/abs/2605.19624v2
- Date: Wed, 20 May 2026 08:44:35 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-21 14:55:44.402671
- Title: Component-Aware Structure-Preserving Style Transfer for Satellite Visual Sim2Real Data Construction
- Title(参考訳): 衛星ビジュアルSim2リアルデータ構築のためのコンポーネント対応構造保存スタイル転送
- Authors: Zongwu Xie, Yonglong Zhang, Yifan Yang, Yang Liu, Baoshi Cao,
- Abstract要約: 本稿では,衛星画像合成-実データ構築のための構造保存型転送フレームワークを提案する。
FIDは54.32、KIDは0.048である。
- 参考スコア(独自算出の注目度): 7.240627719297504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: For camera-based satellite visual sensing, Sim2Real data construction requires images that approach real-domain sensor appearance while retaining the annotations inherited from simulation. Real sensor images of satellite targets with reliable pose labels and component-level masks are difficult to acquire at scale, whereas synthetic rendering provides exact geometric annotations but suffers from a visible appearance gap. This paper presents a component-aware structure-preserving style transfer framework for satellite visual synthetic-to-real data construction. The method builds weakly paired real--synthetic samples from calibrated real acquisition, ArUco-based camera-pose measurement, CAD rendering, and component masks. It then extracts part-wise real-domain style codes from unlabeled real images and injects them into corresponding synthetic satellite regions through mask-aligned modulation. To keep the generated images usable for downstream sensor-data supervision, adversarial training is combined with local contrastive consistency, self-regularization, and edge-preserving constraints. Experiments are conducted on 5,000 rendered satellite images and 100 real images captured in a calibrated setup. The real images provide target-domain appearance references and final evaluation images, while the downstream GDRNet pose estimator is trained only on synthetic or translated synthetic images. Compared with representative image-translation baselines, the proposed method achieves the lowest image distribution discrepancy, with an FID of 54.32 and a KID of 0.048. When the translated data are used to train GDRNet in this target-domain adaptation setting, the ADD pass rate improves to 0.260 and the AUC improves to 0.611. These results indicate that component-level appearance transfer can improve annotation-preserving satellite visual Sim2Real data generation in the considered calibrated setup.
- Abstract(参考訳): カメラベースの衛星画像センシングでは、Sim2Realのデータ構築には、シミュレーションから継承されたアノテーションを保持しながら、実際のドメインのセンサーの外観に近づくイメージが必要である。
信頼性の高いポーズラベルとコンポーネントレベルのマスクを持つ衛星の実際のセンサ画像は、大規模な取得が困難であるのに対して、合成レンダリングは正確な幾何学的アノテーションを提供するが、外観のギャップに悩まされている。
本稿では,衛星画像合成-実データ構築のためのコンポーネント対応構造保存型転送フレームワークを提案する。
この手法は、校正された実検定、ArUcoベースのカメラ位置測定、CADレンダリング、コンポーネントマスクから弱対の実合成サンプルを構築する。
その後、ラベルのない実画像から部分的な実領域スタイルのコードを抽出し、マスク整列変調により対応する合成衛星領域に注入する。
下流のセンサデータ監視のために生成された画像を維持するために、対向訓練は、局所的なコントラスト整合、自己規則化、エッジ保存制約と組み合わせられる。
5000枚の衛星画像と100枚の実像を校正した装置で撮影する実験が行われた。
実際の画像は、ターゲットドメインの外観参照と最終評価画像を提供し、下流のGDRNetポーズ推定器は、合成または翻訳された合成画像のみに基づいて訓練される。
FIDは54.32であり,KIDは0.048である。
このターゲットドメイン適応設定でGDRNetのトレーニングに変換データを使用すると、ADDパスレートは0.260に改善され、AUCは0.611に改善される。
これらの結果から, コンポーネントレベルの外観変換により, アノテーションを保存した衛星画像Sim2Realデータ生成が, キャリブレーションにより向上することが示唆された。
関連論文リスト
- Physics-informed simulation framework for realistic sonar image generation and statistical validation [1.4610038284393168]
ACOUSIMは合成ソナー画像と実ソナー画像の統計的アライメントを評価するフレームワークである。
ガゼボをベースとした環境は、海底テクスチャ、照明駆動影、プラットフォーム高度、騒音を明示的に制御することでソナーのような画像を生成する。
論文 参考訳(メタデータ) (2026-05-19T11:49:11Z) - SpatialEdit: Benchmarking Fine-Grained Image Spatial Editing [85.49998134609665]
画像空間編集は幾何学的な変換を行い、オブジェクトのレイアウトやカメラの視点を正確に制御できる。
現在のモデルはきめ細かい空間操作には不十分であり、専用のアセスメントスイートを動機付けている。
本研究では,空間編集を評価する完全ベンチマークであるSpatialEdit-Benchを紹介する。
制御可能なブレンダーパイプラインで生成された合成データセットであるSpatialEdit-500kを構築した。
論文 参考訳(メタデータ) (2026-04-06T17:54:42Z) - Unifying UAV Cross-View Geo-Localization via 3D Geometric Perception [51.687842983240564]
無人航空機(UAV)のクロスビューな地上局地化は、斜めのUAV画像と衛星地図との厳密な幾何学的相違により、いまだに困難である。
本稿では,3次元シーン形状を明示的にモデル化し,粗い位置認識ときめ細かなポーズ推定を統一する,幾何認識型UAV測位フレームワークを提案する。
提案手法は, 最先端のベースラインを著しく上回り, ロバストメータレベルのローカライゼーション精度を実現し, 複雑な都市環境における一般化を向上する。
論文 参考訳(メタデータ) (2026-04-02T08:08:41Z) - EpiMask: Leveraging Epipolar Distance Based Masks in Cross-Attention for Satellite Image Matching [0.0]
ディープラーニングに基づく画像マッチングネットワークは、視点や照度の大きなバリエーションを扱うことができる。
衛星画像のための半密度画像マッチングネットワークであるEpiMaskについて述べる。
論文 参考訳(メタデータ) (2026-03-23T00:48:58Z) - Learning Domain-Invariant Representations for Cross-Domain Image Registration via Scene-Appearance Disentanglement [6.677604052097574]
ドメインシフトによる画像登録は、コンピュータビジョンと医用画像の基本的な課題である。
本稿では,この課題に対処する一貫したフレームワークであるSAR-Netを提案する。
対象登録誤差の中央値(rTRE)は0.25%であり, 最先端のMEVIS法(0.27% rTRE)を7.4%上回り, 99.1%の堅牢性を示した。
論文 参考訳(メタデータ) (2026-01-12T07:14:11Z) - Persistent feature reconstruction of resident space objects (RSOs) within inverse synthetic aperture radar (ISAR) images [0.0]
本研究は、逐次的特徴検出と追跡による外部構造認識に焦点を当てている。
ISAR画像は、様々な展開シナリオの遭遇をモデル化できるメタヒューリスティックシミュレータによって生成される。
提案手法によるシーケンス内の特徴追跡の利用により,特徴検出と分類の信頼性が向上することが示唆された。
論文 参考訳(メタデータ) (2025-12-17T17:24:50Z) - Coarse-to-Fine Hierarchical Alignment for UAV-based Human Detection using Diffusion Models [14.696438400081114]
本稿では,UAVに基づく人体検出のための合成データを変換するための3段階拡散型フレームワークを提案する。
Cwdはグローバルなスタイルとローカルなコンテンツドメインの相違を明確に分離し、3つのモジュールを使ってそれらのギャップを埋める。
提案手法は,Semantic-DroneベンチマークでmAP50を最大14.1ドルで改善する。
論文 参考訳(メタデータ) (2025-12-15T19:57:36Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - From Synthetic to Real: Image Dehazing Collaborating with Unlabeled Real
Data [58.50411487497146]
ラベルのない実データと協調する新しい画像デハージングフレームワークを提案する。
まず,特徴表現を3つの成分マップに切り離す不整合画像デハージングネットワーク(DID-Net)を開発する。
そして、無ラベルの実データと協調して単一画像のデハージングを促進するために、不整合平均教師ネットワーク(DMT-Net)を用いる。
論文 参考訳(メタデータ) (2021-08-06T04:00:28Z) - Unsupervised Metric Relocalization Using Transform Consistency Loss [66.19479868638925]
メートル法再ローカライズを行うためのトレーニングネットワークは、従来、正確な画像対応が必要である。
地図内のクエリ画像のローカライズは、登録に使用される参照画像に関係なく、同じ絶対的なポーズを与えるべきである。
提案手法は, 限られた地下構造情報が得られる場合に, 他の教師あり手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2020-11-01T19:24:27Z) - Transferring and Regularizing Prediction for Semantic Segmentation [115.88957139226966]
本稿では,セマンティックセグメンテーションの本質的特性を利用して,モデル伝達におけるそのような問題を緩和する。
本稿では,モデル転送を教師なし方式で正規化するための制約として固有特性を課す予測伝達の正規化器(RPT)を提案する。
GTA5とSynTHIA(synthetic data)で訓練されたモデルの都市景観データセット(アーバンストリートシーン)への転送に関するRTPの提案を検証するため、大規模な実験を行った。
論文 参考訳(メタデータ) (2020-06-11T16:19:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。