論文の概要: Semantic Image Manipulation with Background-guided Internal Learning
- arxiv url: http://arxiv.org/abs/2203.12849v1
- Date: Thu, 24 Mar 2022 05:12:54 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-25 14:37:27.045832
- Title: Semantic Image Manipulation with Background-guided Internal Learning
- Title(参考訳): 背景誘導型内部学習による意味的画像操作
- Authors: Zhongping Zhang, Huiwen He, Bryan A. Plummer, Zhenyu Liao, Huayan Wang
- Abstract要約: 背景誘導型内部学習(SIMBIL)を用いた意味的画像操作を提案する。
ユーザーはシーングラフに変更を加えることで、セマンティックレベルで画像を編集できる。
本モデルでは,シーングラフの修正により,画素レベルで画像を操作する。
- 参考スコア(独自算出の注目度): 14.462401930991541
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Image manipulation has attracted a lot of interest due to its wide range of
applications. Prior work modifies images either from low-level manipulation,
such as image inpainting or through manual edits via paintbrushes and
scribbles, or from high-level manipulation, employing deep generative networks
to output an image conditioned on high-level semantic input. In this study, we
propose Semantic Image Manipulation with Background-guided Internal Learning
(SIMBIL), which combines high-level and low-level manipulation. Specifically,
users can edit an image at the semantic level by applying changes on a scene
graph. Then our model manipulates the image at the pixel level according to the
modified scene graph. There are two major advantages of our approach. First,
high-level manipulation of scene graphs requires less manual effort from the
user compared to manipulating raw image pixels. Second, our low-level internal
learning approach is scalable to images of various sizes without reliance on
external visual datasets for training. We outperform the state-of-the-art in a
quantitative and qualitative evaluation on the CLEVR and Visual Genome
datasets. Experiments show 8 points improvement on FID scores (CLEVR) and 27%
improvement on user evaluation (Visual Genome), demonstrating the effectiveness
of our approach.
- Abstract(参考訳): 画像操作は幅広いアプリケーションのために多くの関心を集めている。
以前の作業では、イメージインペイントのような低レベルの操作や、ペイントブラシやスクリブルによる手作業による編集、あるいは高レベルのセマンティックインプットに条件付けされたイメージを出力するために、深層生成ネットワークを用いて、画像を修正する。
本研究では,高レベルかつ低レベルな操作を組み合わせた背景誘導型内部学習(SIMBIL)を用いたセマンティックイメージマニピュレーションを提案する。
具体的には、ユーザーはシーングラフに変化を加えることで、セマンティックレベルで画像を編集することができる。
そして,修正されたシーングラフに基づいて,画像のピクセルレベルで操作を行う。
私たちのアプローチには2つの大きな利点があります。
まず、シーングラフの高レベルな操作は、生の画像ピクセルを操作するよりも、ユーザによる手作業が少なくなる。
第二に、私たちの低レベルの内部学習アプローチは、トレーニングのための外部視覚データセットに頼ることなく、さまざまなサイズの画像に対してスケーラブルです。
我々は,CLEVRおよびVisual Genomeデータセットの定量的,定性的な評価において,最先端技術よりも優れています。
実験の結果,fidスコア(clevr)が8点改善され,ユーザ評価(視覚ゲノム)が27%向上し,本手法の有効性が示された。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Object-Aware Cropping for Self-Supervised Learning [21.79324121283122]
本研究では,通常のランダムな作付けに基づく自己教師型学習が,このようなデータセットでは不十分であることを示す。
対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。
オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-01T07:23:37Z) - Semantically Grounded Object Matching for Robust Robotic Scene
Rearrangement [21.736603698556042]
そこで本研究では,大規模な事前学習型視覚言語モデルを用いて,オブジェクトをクロスインスタンス設定でマッチングするオブジェクトマッチング手法を提案する。
これにより、クロスインスタンス環境でのマッチング性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-11-15T18:39:43Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and
Word2Vec to generate Object and Scene Embeddings from Images [0.0]
我々は、注釈付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。
最初のアプローチでは、画像全体におけるオブジェクトの共起から、オブジェクトのためのもの、シーンのためのものへの埋め込みを生成する。
第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点をあてる。
論文 参考訳(メタデータ) (2020-09-20T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。