論文の概要: Complex Scene Image Editing by Scene Graph Comprehension
- arxiv url: http://arxiv.org/abs/2203.12849v2
- Date: Tue, 19 Sep 2023 04:28:48 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-20 20:52:08.311255
- Title: Complex Scene Image Editing by Scene Graph Comprehension
- Title(参考訳): Scene Graph Comprehension による複雑なシーン画像編集
- Authors: Zhongping Zhang, Huiwen He, Bryan A. Plummer, Zhenyu Liao, Huayan Wang
- Abstract要約: シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
- 参考スコア(独自算出の注目度): 17.72638225034884
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Conditional diffusion models have demonstrated impressive performance on
various tasks like text-guided semantic image editing. Prior work requires
image regions to be identified manually by human users or use an object
detector that only perform well for object-centric manipulations. For example,
if an input image contains multiple objects with the same semantic meaning
(such as a group of birds), object detectors may struggle to recognize and
localize the target object, let alone accurately manipulate it. To address
these challenges, we propose a two-stage method for achieving complex scene
image editing by Scene Graph Comprehension (SGC-Net). In the first stage, we
train a Region of Interest (RoI) prediction network that uses scene graphs and
predict the locations of the target objects. Unlike object detection methods
based solely on object category, our method can accurately recognize the target
object by comprehending the objects and their semantic relationships within a
complex scene. The second stage uses a conditional diffusion model to edit the
image based on our RoI predictions. We evaluate the effectiveness of our
approach on the CLEVR and Visual Genome datasets. We report an 8 point
improvement in SSIM on CLEVR and our edited images were preferred by human
users by 9-33% over prior work on Visual Genome, validating the effectiveness
of our proposed method. Code is available at
github.com/Zhongping-Zhang/SGC_Net.
- Abstract(参考訳): 条件拡散モデルは、テキスト誘導意味画像編集のような様々なタスクで印象的なパフォーマンスを示している。
以前の作業では、画像領域を人間の手動で識別するか、オブジェクト中心の操作にのみうまく機能するオブジェクト検出器を使用する必要がある。
例えば、入力画像が同じ意味を持つ複数のオブジェクト(鳥のグループなど)を含んでいる場合、オブジェクト検出器はターゲットのオブジェクトを認識して位置を特定するのに苦労するかもしれない。
これらの課題に対処するために,SGC-Net(Scene Graph Comprehension)による複雑なシーン画像編集を実現するための2段階の手法を提案する。
第1段階では、シーングラフを使用してターゲットオブジェクトの位置を予測する、関心領域(roi)予測ネットワークをトレーニングします。
対象のカテゴリのみに基づく物体検出手法とは異なり,複雑なシーン内で対象物とその意味関係を理解すれば,対象物体を正確に認識することができる。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
我々は,CLEVRおよびVisual Genomeデータセットに対するアプローチの有効性を評価する。
我々は,CLEVRにおけるSSIMの8点改善を報告し,提案手法の有効性を検証した。
コードはgithub.com/Zhongping-Zhang/SGC_Netで入手できる。
関連論文リスト
- In Defense of Lazy Visual Grounding for Open-Vocabulary Semantic Segmentation [50.79940712523551]
我々は,非教師対象マスク発見の2段階的アプローチである遅延視覚接地を行い,それに続いて物体接地を行う。
私たちのモデルは、追加のトレーニングは必要ありませんが、5つの公開データセットで優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2024-08-09T09:28:35Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Object-Aware Cropping for Self-Supervised Learning [21.79324121283122]
本研究では,通常のランダムな作付けに基づく自己教師型学習が,このようなデータセットでは不十分であることを示す。
対象提案アルゴリズムから得られた作物を、ランダムな作物の一方または両方に置き換えることを提案する。
オブジェクト認識トリミング(object-aware cropping)と呼ぶこのアプローチを用いることで、分類とオブジェクト検出ベンチマークにおいてシーントリミングよりも大幅に改善される。
論文 参考訳(メタデータ) (2021-12-01T07:23:37Z) - Semantically Grounded Object Matching for Robust Robotic Scene
Rearrangement [21.736603698556042]
そこで本研究では,大規模な事前学習型視覚言語モデルを用いて,オブジェクトをクロスインスタンス設定でマッチングするオブジェクトマッチング手法を提案する。
これにより、クロスインスタンス環境でのマッチング性能が大幅に向上することを示す。
論文 参考訳(メタデータ) (2021-11-15T18:39:43Z) - Learning Co-segmentation by Segment Swapping for Retrieval and Discovery [67.6609943904996]
この研究の目的は、一対のイメージから視覚的に類似したパターンを効率的に識別することである。
画像中のオブジェクトセグメントを選択し、それを別の画像にコピーペーストすることで、合成トレーニングペアを生成する。
提案手法は,Brueghelデータセット上でのアートワークの詳細検索に対して,明確な改善をもたらすことを示す。
論文 参考訳(メタデータ) (2021-10-29T16:51:16Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - A Simple and Effective Use of Object-Centric Images for Long-Tailed
Object Detection [56.82077636126353]
シーン中心画像における物体検出を改善するために,物体中心画像を活用する。
私たちは、シンプルで驚くほど効果的なフレームワークを提示します。
我々の手法は、レアオブジェクトのオブジェクト検出(およびインスタンスセグメンテーション)の精度を相対的に50%(および33%)向上させることができる。
論文 参考訳(メタデータ) (2021-02-17T17:27:21Z) - Deriving Visual Semantics from Spatial Context: An Adaptation of LSA and
Word2Vec to generate Object and Scene Embeddings from Images [0.0]
我々は、注釈付き画像からオブジェクトとシーンの埋め込みを学習するための2つのアプローチを開発した。
最初のアプローチでは、画像全体におけるオブジェクトの共起から、オブジェクトのためのもの、シーンのためのものへの埋め込みを生成する。
第2のアプローチでは、シーンの全体像を分析する代わりに、画像のサブリージョン内のオブジェクトの共起に焦点をあてる。
論文 参考訳(メタデータ) (2020-09-20T08:26:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。