論文の概要: CIMGEN: Controlled Image Manipulation by Finetuning Pretrained
Generative Models on Limited Data
- arxiv url: http://arxiv.org/abs/2401.13006v1
- Date: Tue, 23 Jan 2024 06:30:47 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-25 16:31:16.489733
- Title: CIMGEN: Controlled Image Manipulation by Finetuning Pretrained
Generative Models on Limited Data
- Title(参考訳): CIMGEN:限定データに基づく事前学習生成モデルによる画像操作制御
- Authors: Chandrakanth Gudavalli, Erik Rosten, Lakshmanan Nataraj, Shivkumar
Chandrasekaran, B. S. Manjunath
- Abstract要約: セマンティックマップは、画像に存在するオブジェクトの情報を持っている。
簡単にマップを変更して、マップ内のオブジェクトを選択的に挿入、削除、置換することができる。
本稿では,修正セマンティックマップを取り入れ,修正セマンティックマップに従って原画像を変更する手法を提案する。
- 参考スコア(独自算出の注目度): 14.469539513542584
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Content creation and image editing can benefit from flexible user controls. A
common intermediate representation for conditional image generation is a
semantic map, that has information of objects present in the image. When
compared to raw RGB pixels, the modification of semantic map is much easier.
One can take a semantic map and easily modify the map to selectively insert,
remove, or replace objects in the map. The method proposed in this paper takes
in the modified semantic map and alter the original image in accordance to the
modified map. The method leverages traditional pre-trained image-to-image
translation GANs, such as CycleGAN or Pix2Pix GAN, that are fine-tuned on a
limited dataset of reference images associated with the semantic maps. We
discuss the qualitative and quantitative performance of our technique to
illustrate its capacity and possible applications in the fields of image
forgery and image editing. We also demonstrate the effectiveness of the
proposed image forgery technique in thwarting the numerous deep learning-based
image forensic techniques, highlighting the urgent need to develop robust and
generalizable image forensic tools in the fight against the spread of fake
media.
- Abstract(参考訳): コンテンツの作成と画像編集は柔軟なユーザーコントロールの恩恵を受ける。
条件付き画像生成のための共通の中間表現は、画像に存在するオブジェクトの情報を持つセマンティックマップである。
生のrgbピクセルと比較すると、セマンティックマップの修正はずっと簡単である。
セマンティックマップを選択して、マップのオブジェクトを選択的に挿入、削除、置換するように簡単に変更することができる。
本論文で提案する手法は,修正意味マップを取り入れ,修正地図に従って原画像を変更するものである。
この手法は、セマンティックマップに関連付けられた参照画像の限られたデータセットに基づいて微調整されたCycleGANやPix2Pix GANのような、従来のトレーニング済みの画像変換GANを利用する。
本手法の質的、定量的な性能について検討し、画像偽造や画像編集の分野での応用可能性について述べる。
また,多数の深層学習に基づく画像鑑定手法を阻止する上で,提案手法の有効性を実証し,偽メディアの普及との戦いにおいて,頑健で一般化可能な画像鑑定ツールを開発することの必要性を強調した。
関連論文リスト
- Towards Understanding Cross and Self-Attention in Stable Diffusion for
Text-Guided Image Editing [47.71851180196975]
チューニング不要のテキストガイド画像編集(TIE)は、アプリケーション開発者にとって非常に重要である。
深部探索解析を行い、安定拡散における交差アテンションマップは、しばしば物体の帰属情報を含むことを示す。
対照的に、自己注意マップは、ソース画像の幾何学的および形状的詳細を保存する上で重要な役割を担っている。
論文 参考訳(メタデータ) (2024-03-06T03:32:56Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - DiffEdit: Diffusion-based semantic image editing with mask guidance [64.555930158319]
DiffEditは、セマンティック画像編集のタスクにテキスト条件付き拡散モデルを利用する方法である。
私たちの主なコントリビューションは、編集が必要な入力画像の領域をハイライトするマスクを自動的に生成できることです。
論文 参考訳(メタデータ) (2022-10-20T17:16:37Z) - Image Shape Manipulation from a Single Augmented Training Sample [26.342929563689218]
DeepSIMは、単一の画像に基づく条件付き画像操作のための生成モデルである。
我々のネットワークは、画像のプリミティブ表現と画像自体とのマッピングを学習する。
論文 参考訳(メタデータ) (2021-09-13T17:44:04Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - Controllable Image Synthesis via SegVAE [89.04391680233493]
セマンティックマップは条件付き画像生成の中間表現として一般的に使用される。
本研究では,所望のカテゴリからなるラベルセットを与えられたセマンティックマップの生成を特に対象とする。
提案するフレームワークSegVAEは,条件付き変分オートエンコーダを用いて,セマンティックマップを反復的に合成する。
論文 参考訳(メタデータ) (2020-07-16T15:18:53Z) - Image Shape Manipulation from a Single Augmented Training Sample [24.373900721120286]
DeepSIMは、単一の画像に基づく条件付き画像操作のための生成モデルである。
我々のネットワークは、画像のプリミティブ表現と画像自体とのマッピングを学習する。
論文 参考訳(メタデータ) (2020-07-02T17:55:27Z) - Semantic Image Manipulation Using Scene Graphs [105.03614132953285]
本稿では,星座変更や画像編集を直接監督する必要のないシーングラフネットワークを提案する。
これにより、追加のアノテーションを使わずに、既存の実世界のデータセットからシステムをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-07T20:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。