論文の概要: Exploring Text-Guided Single Image Editing for Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2405.05769v2
- Date: Thu, 26 Sep 2024 05:10:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 02:41:28.071609
- Title: Exploring Text-Guided Single Image Editing for Remote Sensing Images
- Title(参考訳): リモートセンシング画像のためのテキストガイドによる単一画像編集の探索
- Authors: Fangzhou Han, Lingyu Si, Hongwei Dong, Lamei Zhang, Hao Chen, Bo Du,
- Abstract要約: 本稿では,テキスト誘導型RSI編集手法を提案する。
大規模なベンチマークデータセットのトレーニングを必要とせずに、一貫性を維持するために、マルチスケールのトレーニングアプローチを採用している。
- 参考スコア(独自算出の注目度): 30.23541304590692
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Artificial intelligence generative content (AIGC) has significantly impacted image generation in the field of remote sensing. However, the equally important area of remote sensing image (RSI) editing has not received sufficient attention. Deep learning based editing methods generally involve two sequential stages: generation and editing. During the generation stage, consistency in content and details between the original and edited images must be maintained, while in the editing stage, controllability and accuracy of the edits should be ensured. For natural images, these challenges can be tackled by training generative backbones on large-scale benchmark datasets and using text guidance based on vision-language models (VLMs). However, these previously effective approaches become less viable for RSIs due to two reasons: First, existing generative RSI benchmark datasets do not fully capture the diversity of remote sensing scenarios, particularly in terms of variations in sensors, object types, and resolutions. Consequently, the generalization capacity of the trained backbone model is often inadequate for universal editing tasks on RSIs. Second, the large spatial resolution of RSIs exacerbates the problem in VLMs where a single text semantic corresponds to multiple image semantics, leading to the introduction of incorrect semantics when using text to guide RSI editing. To solve above problems, this paper proposes a text-guided RSI editing method that is controllable but stable, and can be trained using only a single image. It adopts a multi-scale training approach to preserve consistency without the need for training on extensive benchmark datasets, while leveraging RSI pre-trained VLMs and prompt ensembling (PE) to ensure accuracy and controllability in the text-guided editing process.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)はリモートセンシングの分野で画像生成に大きな影響を与えている。
しかし、リモートセンシング画像(RSI)編集の等しく重要な領域には十分な注意が払われていない。
ディープラーニングベースの編集手法は一般的に、生成と編集の2段階を含む。
生成段階では、原画像と編集画像間のコンテンツと詳細の整合性を維持し、編集段階では編集の可制御性と精度を確保する必要がある。
自然画像の場合、これらの課題は、大規模なベンチマークデータセットで生成バックボーンをトレーニングし、視覚言語モデル(VLM)に基づいたテキストガイダンスを使用することによって解決できる。
しかしながら、これらの従来の効果的なアプローチは2つの理由から、RSIでは実現できない。 まず、既存の生成RSIベンチマークデータセットは、特にセンサー、オブジェクトタイプ、解像度の変化の観点から、リモートセンシングシナリオの多様性を完全に捉えていない。
したがって、トレーニングされたバックボーンモデルの一般化能力は、RSI上の普遍的な編集タスクには不十分であることが多い。
第二に、単一のテキストセマンティクスが複数の画像セマンティクスに対応するようなVLMでは、テキストを使用してRSI編集をガイドするときに、誤ったセマンティクスが導入された。
そこで本研究では,テキスト誘導型RSI編集手法を提案する。
大規模なベンチマークデータセットのトレーニングを必要とせずに一貫性を維持するために、マルチスケールのトレーニングアプローチを採用すると同時に、RSI事前トレーニングされたVLMを活用して、テキストガイド編集プロセスにおける精度と制御性を確保するために、PE(enmbling)を急ぐ。
関連論文リスト
- HeadRouter: A Training-free Image Editing Framework for MM-DiTs by Adaptively Routing Attention Heads [39.94688771600168]
Headは、MM-DiTの異なるアテンションヘッドにテキストガイダンスを適応的にルーティングすることで、ソースイメージを編集する、トレーニング不要の画像編集フレームワークである。
テキスト/画像のトークン表現を洗練し,正確な意味指導と正確な領域表現を行う。
論文 参考訳(メタデータ) (2024-11-22T16:08:03Z) - Multi-task SAR Image Processing via GAN-based Unsupervised Manipulation [6.154796320245652]
GAN(Generative Adversarial Networks)は、多数の現実的なSAR画像の合成において、大きな可能性を秘めている。
本稿では、GANベースのUnsupervised Editing (GUE)と呼ばれる新しいSAR画像処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T19:49:30Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - ResiDualGAN: Resize-Residual DualGAN for Cross-Domain Remote Sensing
Images Semantic Segmentation [15.177834801688979]
アノテーション付きデータセットで事前訓練されたリモートセンシング(RS)画像のセマンティックセグメンテーションモデルの性能は、ドメインギャップのため、他のアノテーションなしデータセットでテストすると大幅に低下する。
画素レベルのドメインギャップを最小限に抑えるために、DualGANなどの逆生成法が未ペア画像から画像への変換に利用される。
本稿では,RS画像の変換においてResiDualGANを提案する。
論文 参考訳(メタデータ) (2022-01-27T13:56:54Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z) - SSCR: Iterative Language-Based Image Editing via Self-Supervised
Counterfactual Reasoning [79.30956389694184]
反復言語ベースの画像編集(IL-BIE)タスクは、段階的に画像を編集するための反復的な命令に従う。
データ不足は、命令ベースの変更前後の大規模な画像のサンプル収集が困難であるため、ILBIEにとって重要な問題である。
本稿では,データ不足を克服する対実的思考を取り入れたセルフスーパービジョンの対実的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-21T01:45:58Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。