論文の概要: RSEdit: Text-Guided Image Editing for Remote Sensing
- arxiv url: http://arxiv.org/abs/2603.13708v1
- Date: Sat, 14 Mar 2026 02:22:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 16:19:35.353927
- Title: RSEdit: Text-Guided Image Editing for Remote Sensing
- Title(参考訳): RSEdit: リモートセンシングのためのテキストガイド画像編集
- Authors: Chen Zhenyuan, Zhang Zechuan, Zhang Feng,
- Abstract要約: 一般ドメインのテキスト誘導画像エディタは、強力なフォトリアリズムを実現するが、アーティファクトを導入し、幻覚オブジェクトを導入し、リモートセンシング(RS)画像の正書法的制約を破る。
本稿では、事前訓練されたテキスト・画像拡散モデルを命令追従RSエディタに適応させる統合フレームワークRSEditを提案する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: General-domain text-guided image editors achieve strong photorealism but introduce artifacts, hallucinate objects, and break the orthographic constraints of remote sensing (RS) imagery. We trace this gap to two high-level causes: (i) limited RS world knowledge in pre-trained models, and (ii) conditioning schemes that misalign with the bi-temporal structure and spatial priors of Earth observation data. We present RSEdit, a unified framework that adapts pretrained text-to-image diffusion models - both U-Net and DiT - into instruction-following RS editors via channel concatenation and in-context token concatenation. Trained on over 60,000 semantically rich bi-temporal remote sensing image pairs, RSEdit learns precise, physically coherent edits while preserving geospatial content. Experiments show clear gains over general and commercial baselines, demonstrating strong generalizability across diverse scenarios including disaster impacts, urban growth, and seasonal shifts, positioning RSEdit as a robust data engine for downstream analysis. We will release code, pretrained models, evaluation protocols, training logs, and generated results for full reproducibility. Code: https://github.com/Bili-Sakura/RSEdit-Preview
- Abstract(参考訳): 一般ドメインのテキスト誘導画像エディタは、強力なフォトリアリズムを実現するが、アーティファクトを導入し、幻覚オブジェクトを導入し、リモートセンシング(RS)画像の正書法的制約を破る。
このギャップは2つのハイレベルな原因に遡る。
(i)事前訓練モデルにおけるRS世界知識の制限
(II)地球観測データの時間的構造や空間的先行と不一致な条件付け手法。
U-NetとDiTの両方で事前訓練されたテキストと画像の拡散モデルを、チャネル結合とコンテクスト内トークン結合を介して命令追従するRSエディタに適応させる統一フレームワークRSEditを提案する。
6万以上のセマンティックにリッチな双方向リモートセンシングイメージペアでトレーニングされたRSEditは、地理空間的コンテンツを保存しながら、正確で物理的に一貫性のある編集を学習する。
一般ベースラインや商業ベースラインよりも明らかな向上を示し、災害の影響、都市の成長、季節変化など様々なシナリオにまたがる強力な一般化可能性を示し、下流分析のための堅牢なデータエンジンとしてRSEditを位置づけた。
コード、事前訓練されたモデル、評価プロトコル、ログのトレーニング、そして完全な再現性のための生成された結果をリリースします。
コード:https://github.com/Bili-Sakura/RSEdit-Preview
関連論文リスト
- RSCC: A Large-Scale Remote Sensing Change Caption Dataset for Disaster Events [22.94908378058109]
本稿では,62,315個の前/後イメージペアからなる大規模ベンチマークであるRemote Sensing Change Captionデータセットを紹介する。
リモートセンシングデータの時間的・意味的な分割をブリッジすることにより、RSCCは災害対応の両時間的理解のための視覚言語モデルの堅牢なトレーニングと評価を可能にする。
結果は、RSCCの詳細な災害関連分析を促進する能力を強調し、リモートセンシングにおけるより正確で解釈可能でスケーラブルな視覚言語アプリケーションへの道を開いた。
論文 参考訳(メタデータ) (2025-09-02T03:01:23Z) - Visual Autoregressive Modeling for Instruction-Guided Image Editing [97.04821896251681]
画像編集を次世代の予測問題として再編成する視覚的自己回帰フレームワークを提案する。
VarEditは、正確な編集を実現するために、マルチスケールのターゲット機能を生成する。
1.2秒で512times512$編集を完了し、同じサイズのUltraEditよりも2.2$times$高速になった。
論文 参考訳(メタデータ) (2025-08-21T17:59:32Z) - SelfDRSC++: Self-Supervised Learning for Dual Reversed Rolling Shutter Correction [72.05587640928879]
二重反転RS歪み補正(SelfDRSC++)のための自己教師付き学習フレームワークを提案する。
双方向相関マッチングブロックを組み込んだ軽量DRSCネットワークを導入し,光学流の結合最適化とRS特性の補正を行う。
DRSCネットワークを効果的に訓練するために、入力と再構成された二重逆RS画像間のサイクル整合性を保証する自己教師付き学習戦略を提案する。
論文 参考訳(メタデータ) (2024-08-21T08:17:22Z) - Exploring Text-Guided Single Image Editing for Remote Sensing Images [30.66938568608091]
本稿では,テキストガイドによるRSI編集手法を提案する。
大規模なベンチマークのトレーニングを必要とせずに一貫性を維持するために、マルチスケールのトレーニングアプローチが採用されている。
提案手法は,既存の手法と比較して,CLIPスコアと主観評価の両方に有意な利点をもたらす。
論文 参考訳(メタデータ) (2024-05-09T13:45:04Z) - Bridging Synthetic and Real Worlds for Pre-training Scene Text Detectors [54.80516786370663]
FreeRealは、SDと実際のデータの相補的な強みを可能にする、実際のドメイン整合型事前トレーニングパラダイムである。
GlyphMixは、合成画像を落書きのようなユニットとして実際の画像に埋め込む。
FreeRealは、4つの公開データセットで、既存の事前トレーニングメソッドよりも大幅にパフォーマンスが向上している。
論文 参考訳(メタデータ) (2023-12-08T15:10:55Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Self-Supervised Scene Dynamic Recovery from Rolling Shutter Images and
Events [63.984927609545856]
任意の時間間隔間での画素単位のダイナミックさを予測するために,イベントベース/イントラフレーム補償器(E-IC)を提案する。
提案手法は,実世界のシナリオにおけるイベントベースRS2GSインバージョンにおいて,顕著な性能を示す。
論文 参考訳(メタデータ) (2023-04-14T05:30:02Z) - Syn2Real Transfer Learning for Image Deraining using Gaussian Processes [92.15895515035795]
CNNに基づく画像デライニング手法は,再現誤差や視覚的品質の点で優れた性能を発揮している。
実世界の完全ラベル付き画像デライニングデータセットを取得する上での課題により、既存の手法は合成されたデータのみに基づいて訓練される。
本稿では,ガウス過程に基づく半教師付き学習フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-10T00:33:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。