論文の概要: DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation
- arxiv url: http://arxiv.org/abs/2211.05499v1
- Date: Thu, 10 Nov 2022 11:47:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2022-11-11 14:11:05.316382
- Title: DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation
- Title(参考訳): DisPositioNet: セマンティックイメージ操作におけるアンタングルとアイデンティティ
- Authors: Azade Farshad, Yousef Yeganeh, Helisa Dhamo, Federico Tombari, Nassir
Navab
- Abstract要約: DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
- 参考スコア(独自算出の注目度): 83.51882381294357
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Graph representation of objects and their relations in a scene, known as a
scene graph, provides a precise and discernible interface to manipulate a scene
by modifying the nodes or the edges in the graph. Although existing works have
shown promising results in modifying the placement and pose of objects, scene
manipulation often leads to losing some visual characteristics like the
appearance or identity of objects. In this work, we propose DisPositioNet, a
model that learns a disentangled representation for each object for the task of
image manipulation using scene graphs in a self-supervised manner. Our
framework enables the disentanglement of the variational latent embeddings as
well as the feature representation in the graph. In addition to producing more
realistic images due to the decomposition of features like pose and identity,
our method takes advantage of the probabilistic sampling in the intermediate
features to generate more diverse images in object replacement or addition
tasks. The results of our experiments show that disentangling the feature
representations in the latent manifold of the model outperforms the previous
works qualitatively and quantitatively on two public benchmarks. Project Page:
https://scenegenie.github.io/DispositioNet/
- Abstract(参考訳): シーングラフと呼ばれるシーン内のオブジェクトとその関係のグラフ表現は、グラフのノードまたはエッジを変更してシーンを操作するための精密で識別可能なインターフェースを提供する。
既存の研究は、オブジェクトの配置やポーズを変更するという有望な結果を示しているが、シーン操作はしばしば、オブジェクトの外観やアイデンティティのような視覚的特徴を失う。
本研究では,シーングラフを自己教師型で画像操作するタスクに対して,各オブジェクトに対する不整合表現を学習するモデルであるDisPositioNetを提案する。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
ポーズやアイデンティティなどの特徴の分解によるより現実的な画像の生成に加えて,中間機能における確率的サンプリングを利用して,オブジェクト置換や追加タスクにおいてより多様な画像を生成する。
実験の結果,モデルの潜在多様体における特徴表現のアンタングル化は,2つの公的なベンチマークにおいて,前処理を質的に定量的に上回ることを示した。
プロジェクトページ: https://scenegenie.github.io/dispositionet/
関連論文リスト
- Joint Generative Modeling of Scene Graphs and Images via Diffusion
Models [37.788957749123725]
共同シーングラフ - 画像生成という,新しい生成タスクを提案する。
本稿では,隣接行列と不均一なノードとエッジ属性を併用した新しい拡散モデルDiffuseSGを提案する。
グラフ変換器をデノイザとし、DiffuseSGは連続空間におけるシーングラフ表現を連続的にデノイズし、最終表現を識別してクリーンなシーングラフを生成する。
論文 参考訳(メタデータ) (2024-01-02T10:10:29Z) - Structure-Guided Image Completion with Image-level and Object-level Semantic Discriminators [97.12135238534628]
複雑な意味論やオブジェクトの生成を改善するために,セマンティック・ディミネータとオブジェクトレベル・ディミネータからなる学習パラダイムを提案する。
特に、セマンティック・ディミネーターは、事前学習された視覚的特徴を利用して、生成された視覚概念の現実性を改善する。
提案手法は, 生成品質を著しく向上させ, 各種タスクの最先端化を実現する。
論文 参考訳(メタデータ) (2022-12-13T01:36:56Z) - Iterative Scene Graph Generation [55.893695946885174]
シーングラフ生成は、オブジェクトエンティティとその対応する相互作用述語を所定の画像(またはビデオ)で識別する。
シーングラフ生成への既存のアプローチは、推定イテレーションの実現を可能にするために、関節分布の特定の因子化を前提としている。
本稿では,この制限に対処する新しいフレームワークを提案するとともに,画像に動的条件付けを導入する。
論文 参考訳(メタデータ) (2022-07-27T10:37:29Z) - Complex Scene Image Editing by Scene Graph Comprehension [17.72638225034884]
シーングラフ(SGC-Net)による複雑なシーン画像編集を実現するための2段階手法を提案する。
第1段階では,シーングラフを用いた関心領域予測ネットワークを訓練し,対象物体の位置を推定する。
第2段階では条件付き拡散モデルを用いて、RoI予測に基づいて画像を編集する。
論文 参考訳(メタデータ) (2022-03-24T05:12:54Z) - Scene Graph Generation for Better Image Captioning? [48.411957217304]
検出されたオブジェクトと自動生成された視覚的関係を利用して、自然言語で画像を記述するモデルを提案する。
我々は、個々のオブジェクトとそれらの間の視覚的関係を識別することにより、生画像画素からシーングラフを生成する。
このシーングラフは、最後のキャプションを生成するグラフからテキストへのモデルへの入力として機能します。
論文 参考訳(メタデータ) (2021-09-23T14:35:11Z) - Learning to Generate Scene Graph from Natural Language Supervision [52.18175340725455]
シーングラフと呼ばれる画像内の局所化オブジェクトとその関係をグラフィカルに表現するために,画像と文のペアから学習する最初の方法の1つを提案する。
既製のオブジェクト検出器を利用してオブジェクトのインスタンスを識別し、ローカライズし、検出された領域のラベルとキャプションから解析された概念をマッチングし、シーングラフを学習するための"擬似ラベル"を作成する。
論文 参考訳(メタデータ) (2021-09-06T03:38:52Z) - Unconditional Scene Graph Generation [72.53624470737712]
我々はラベル付きおよび有向グラフ上の確率分布を学習できるSceneGraphGenと呼ばれる深層自己回帰モデルを開発した。
SceneGraphGenによって生成されたシーングラフは多様であり、実世界のシーンのセマンティックなパターンに従う。
論文 参考訳(メタデータ) (2021-08-12T17:57:16Z) - Scene Graph Generation via Conditional Random Fields [14.282277071380447]
画像中のオブジェクトのインスタンスとその対応する関係を予測するための新しいシーングラフ生成モデルを提案する。
我々のモデルであるSG-CRFは、関係3重項における対象と対象の逐次順序と、シーングラフにおけるオブジェクトノードインスタンスと関係ノードのセマンティック互換性を効率よく学習する。
論文 参考訳(メタデータ) (2018-11-20T04:55:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。