論文の概要: Semantic Image Manipulation Using Scene Graphs
- arxiv url: http://arxiv.org/abs/2004.03677v1
- Date: Tue, 7 Apr 2020 20:02:49 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-16 00:35:37.935881
- Title: Semantic Image Manipulation Using Scene Graphs
- Title(参考訳): シーングラフを用いた意味的画像操作
- Authors: Helisa Dhamo, Azade Farshad, Iro Laina, Nassir Navab, Gregory D.
Hager, Federico Tombari, Christian Rupprecht
- Abstract要約: 本稿では,星座変更や画像編集を直接監督する必要のないシーングラフネットワークを提案する。
これにより、追加のアノテーションを使わずに、既存の実世界のデータセットからシステムをトレーニングすることができる。
- 参考スコア(独自算出の注目度): 105.03614132953285
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image manipulation can be considered a special case of image generation where
the image to be produced is a modification of an existing image. Image
generation and manipulation have been, for the most part, tasks that operate on
raw pixels. However, the remarkable progress in learning rich image and object
representations has opened the way for tasks such as text-to-image or
layout-to-image generation that are mainly driven by semantics. In our work, we
address the novel problem of image manipulation from scene graphs, in which a
user can edit images by merely applying changes in the nodes or edges of a
semantic graph that is generated from the image. Our goal is to encode image
information in a given constellation and from there on generate new
constellations, such as replacing objects or even changing relationships
between objects, while respecting the semantics and style from the original
image. We introduce a spatio-semantic scene graph network that does not require
direct supervision for constellation changes or image edits. This makes it
possible to train the system from existing real-world datasets with no
additional annotation effort.
- Abstract(参考訳): 画像操作は、生成する画像が既存の画像の修正であるような画像生成の特別な場合と考えることができる。
画像の生成と操作は、ほとんどの場合、生のピクセルで動作するタスクです。
しかし、リッチな画像やオブジェクト表現の学習における顕著な進歩は、主にセマンティクスによって駆動されるテキスト・ツー・イメージやレイアウト・ツー・イメージ生成といったタスクの道を開いた。
本研究では,画像から生成されたセマンティックグラフのノードやエッジの変更を単に適用するだけで画像を編集できるシーングラフからの画像操作という,新たな課題に対処する。
私たちの目標は、与えられた星座内の画像情報をエンコードし、元の画像から意味やスタイルを尊重しながら、オブジェクトの置き換えやオブジェクト間の関係の変更など、新たな星座を生成することです。
本研究では,星座変更や画像編集を直接監督する必要のない空間空間グラフネットワークを提案する。
これにより、追加のアノテーションを使わずに、既存の実世界のデータセットからシステムをトレーニングすることができる。
関連論文リスト
- CIMGEN: Controlled Image Manipulation by Finetuning Pretrained
Generative Models on Limited Data [14.469539513542584]
セマンティックマップは、画像に存在するオブジェクトの情報を持っている。
簡単にマップを変更して、マップ内のオブジェクトを選択的に挿入、削除、置換することができる。
本稿では,修正セマンティックマップを取り入れ,修正セマンティックマップに従って原画像を変更する手法を提案する。
論文 参考訳(メタデータ) (2024-01-23T06:30:47Z) - iEdit: Localised Text-guided Image Editing with Weak Supervision [53.082196061014734]
テキスト誘導画像編集のための新しい学習法を提案する。
ソースイメージに条件付けされた画像とテキスト編集プロンプトを生成する。
画像の忠実度、CLIPアライメントスコア、および生成された画像と実際の画像の両方を定性的に編集する点において、画像に対して好ましい結果を示す。
論文 参考訳(メタデータ) (2023-05-10T07:39:14Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - Transforming Image Generation from Scene Graphs [11.443097632746763]
本稿では,デコーダを用いて自動回帰合成を行うシーングラフを用いたトランスフォーマ方式を提案する。
提案アーキテクチャは,1)入力グラフの関係を符号化するグラフ畳み込みネットワーク,2)出力画像を自己回帰的に合成するエンコーダ・デコーダ変換器,3)各生成ステップの入力/出力として使用される表現を生成するオートエンコーダの3つのモジュールから構成される。
論文 参考訳(メタデータ) (2022-07-01T16:59:38Z) - SketchEdit: Mask-Free Local Image Manipulation with Partial Sketches [95.45728042499836]
マスクレス局所画像操作という,スケッチに基づく画像操作の新しいパラダイムを提案する。
本モデルでは,対象の修正領域を自動的に予測し,構造型ベクトルにエンコードする。
ジェネレータは、スタイルベクトルとスケッチに基づいて、新しいイメージコンテンツを合成する。
論文 参考訳(メタデータ) (2021-11-30T02:42:31Z) - Unsupervised Image Transformation Learning via Generative Adversarial
Networks [40.84518581293321]
GAN(Generative Adversarial Networks)を用いた画像集合から基底変換を学習して画像変換問題を研究する。
本稿では,生成元と識別器が共有する変換空間に画像を投影する,教師なし学習フレームワークTrGANを提案する。
論文 参考訳(メタデータ) (2021-03-13T17:08:19Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z) - SESAME: Semantic Editing of Scenes by Adding, Manipulating or Erasing
Objects [127.7627687126465]
SESAMEは、オブジェクトの追加、操作、消去によるシーンのセマンティック編集のための新しいジェネレータ-差別化器である。
我々の設定では、ユーザは編集対象領域のセマンティックラベルを提供し、ジェネレータは対応するピクセルを合成する。
我々は,多種多様なデータセット上でモデルを評価し,2つのタスクについて最先端のパフォーマンスを報告する。
論文 参考訳(メタデータ) (2020-04-10T10:19:19Z) - Local Facial Attribute Transfer through Inpainting [3.4376560669160394]
属性転送という用語は、与えられた入力画像の意味的解釈を意図した方向にシフトさせるような方法で画像を変更するタスクを指す。
属性伝達の最近の進歩は、主に生成的なディープニューラルネットワークに基づいており、ジェネレータの潜時空間における画像を操作する様々な技術を用いている。
本稿では,局所的な属性伝達の共通サブタスクに対して,意味的変化を実現するために,顔の一部のみを変更する必要がある新しい手法を提案する。
論文 参考訳(メタデータ) (2020-02-07T22:57:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。