論文の概要: Exploring Text-Guided Single Image Editing for Remote Sensing Images
- arxiv url: http://arxiv.org/abs/2405.05769v1
- Date: Thu, 9 May 2024 13:45:04 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-10 13:23:01.077436
- Title: Exploring Text-Guided Single Image Editing for Remote Sensing Images
- Title(参考訳): リモートセンシング画像のためのテキストガイドによる単一画像編集の探索
- Authors: Fangzhou Han, Lingyu Si, Hongwei Dong, Lamei Zhang, Hao Chen, Bo Du,
- Abstract要約: 本文は,テキスト誘導による安定かつ制御可能なリモートセンシング画像編集を実現するための拡散法を提案する。
提案手法は,多数のペア画像の使用を回避し,単一の画像のみを用いて良好な画像編集結果が得られる。
- 参考スコア(独自算出の注目度): 30.23541304590692
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Artificial Intelligence Generative Content (AIGC) technologies have significantly influenced the remote sensing domain, particularly in the realm of image generation. However, remote sensing image editing, an equally vital research area, has not garnered sufficient attention. Different from text-guided editing in natural images, which relies on extensive text-image paired data for semantic correlation, the application scenarios of remote sensing image editing are often extreme, such as forest on fire, so it is difficult to obtain sufficient paired samples. At the same time, the lack of remote sensing semantics and the ambiguity of text also restrict the further application of image editing in remote sensing field. To solve above problems, this letter proposes a diffusion based method to fulfill stable and controllable remote sensing image editing with text guidance. Our method avoids the use of a large number of paired image, and can achieve good image editing results using only a single image. The quantitative evaluation system including CLIP score and subjective evaluation metrics shows that our method has better editing effect on remote sensing images than the existing image editing model.
- Abstract(参考訳): 人工知能生成コンテンツ(AIGC)技術は、特に画像生成の領域において、リモートセンシング領域に大きな影響を与えている。
しかし、同様に重要な研究領域であるリモートセンシング画像編集は十分な注意を払っていない。
テキストガイドによる自然な画像の編集とは違い、リモートセンシング画像編集の応用シナリオは森林火災など極端であり、十分なペアデータを得ることは困難である。
同時に、リモートセンシングのセマンティクスの欠如とテキストの曖昧さは、リモートセンシング分野における画像編集のさらなる適用を制限している。
以上の問題を解決するために,テキストガイダンスを用いた安定かつ制御可能なリモートセンシング画像編集を実現する拡散法を提案する。
提案手法は,多数のペア画像の使用を回避し,単一の画像のみを用いて良好な画像編集結果が得られる。
CLIPスコアと主観評価指標を含む定量的評価システムは,既存の画像編集モデルよりもリモートセンシング画像の編集効果が高いことを示す。
関連論文リスト
- HeadRouter: A Training-free Image Editing Framework for MM-DiTs by Adaptively Routing Attention Heads [39.94688771600168]
Headは、MM-DiTの異なるアテンションヘッドにテキストガイダンスを適応的にルーティングすることで、ソースイメージを編集する、トレーニング不要の画像編集フレームワークである。
テキスト/画像のトークン表現を洗練し,正確な意味指導と正確な領域表現を行う。
論文 参考訳(メタデータ) (2024-11-22T16:08:03Z) - Multi-task SAR Image Processing via GAN-based Unsupervised Manipulation [6.154796320245652]
GAN(Generative Adversarial Networks)は、多数の現実的なSAR画像の合成において、大きな可能性を秘めている。
本稿では、GANベースのUnsupervised Editing (GUE)と呼ばれる新しいSAR画像処理フレームワークを提案する。
論文 参考訳(メタデータ) (2024-08-02T19:49:30Z) - Pre-trained Text-to-Image Diffusion Models Are Versatile Representation Learners for Control [73.6361029556484]
身体的なAIエージェントは、視覚的および言語入力を介して、物理的な世界を詳細に理解する必要がある。
テキストプロンプトから画像を生成するために明示的に最適化された事前学習されたテキスト画像拡散モデルについて検討する。
安定度制御表現により,OVMM上での最先端性能を示す学習ポリシーが実現可能であることを示す。
論文 参考訳(メタデータ) (2024-05-09T15:39:54Z) - Customize your NeRF: Adaptive Source Driven 3D Scene Editing via
Local-Global Iterative Training [61.984277261016146]
テキスト記述や参照画像を編集プロンプトとして統合するCustomNeRFモデルを提案する。
最初の課題に取り組むために,前景領域編集とフルイメージ編集を交互に行うローカル・グローバル反復編集(LGIE)トレーニング手法を提案する。
第2の課題として、生成モデル内のクラス事前を利用して、一貫性の問題を緩和するクラス誘導正規化を設計する。
論文 参考訳(メタデータ) (2023-12-04T06:25:06Z) - Recognition-Guided Diffusion Model for Scene Text Image Super-Resolution [15.391125077873745]
Scene Text Image Super-Resolution (STISR)は、低解像度(LR)画像におけるテキストの解像度と可視性を高めることを目的としている。
従来は差別的畳み込みニューラルネットワーク(CNN)を多種多様なテキストガイダンスで用いていた。
本稿では,シーンテキスト画像の認識誘導拡散モデルであるRGDiffSRを紹介する。
論文 参考訳(メタデータ) (2023-11-22T11:10:45Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - ResiDualGAN: Resize-Residual DualGAN for Cross-Domain Remote Sensing
Images Semantic Segmentation [15.177834801688979]
アノテーション付きデータセットで事前訓練されたリモートセンシング(RS)画像のセマンティックセグメンテーションモデルの性能は、ドメインギャップのため、他のアノテーションなしデータセットでテストすると大幅に低下する。
画素レベルのドメインギャップを最小限に抑えるために、DualGANなどの逆生成法が未ペア画像から画像への変換に利用される。
本稿では,RS画像の変換においてResiDualGANを提案する。
論文 参考訳(メタデータ) (2022-01-27T13:56:54Z) - Learning by Planning: Language-Guided Global Image Editing [53.72807421111136]
あいまいな編集言語要求を一連の編集操作にマッピングするテキスト・ツー・オペレーティング・モデルを開発した。
タスクの唯一の監督はターゲットイメージであり、シーケンシャルな決定の安定したトレーニングには不十分である。
本研究では,対象画像から可能な編集シーケンスを疑似基底真理として生成する,新たな操作計画アルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-06-24T16:30:03Z) - SSCR: Iterative Language-Based Image Editing via Self-Supervised
Counterfactual Reasoning [79.30956389694184]
反復言語ベースの画像編集(IL-BIE)タスクは、段階的に画像を編集するための反復的な命令に従う。
データ不足は、命令ベースの変更前後の大規模な画像のサンプル収集が困難であるため、ILBIEにとって重要な問題である。
本稿では,データ不足を克服する対実的思考を取り入れたセルフスーパービジョンの対実的推論フレームワークを提案する。
論文 参考訳(メタデータ) (2020-09-21T01:45:58Z) - Scene Text Image Super-Resolution in the Wild [112.90416737357141]
低解像度のテキスト画像は、携帯電話が捉えた文書のような自然の場面でよく見られる。
従来は、合成低解像度画像に対して、単一の画像超解像法 (SISR) を訓練していた。
実際のシーンテキストSRデータセットであるTextZoomをプロポーズする。
この写真には、野生の焦点距離の異なるカメラが捉えた、実際の低解像度と高解像度の2つの画像が含まれている。
論文 参考訳(メタデータ) (2020-05-07T09:18:59Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。