論文の概要: Person-in-Context Synthesiswith Compositional Structural Space
- arxiv url: http://arxiv.org/abs/2008.12679v1
- Date: Fri, 28 Aug 2020 14:33:28 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-24 01:38:25.050545
- Title: Person-in-Context Synthesiswith Compositional Structural Space
- Title(参考訳): 合成構造空間を用いた人・人・文脈合成
- Authors: Weidong Yin, Ziwei Liu, Leonid Sigal
- Abstract要約: 本研究では,コンテキスト合成におけるtextbfPersons という新たな問題を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため、各(コンテキスト/人物)入力を「共有構成構造空間」に意図的に合成する2つの別個の神経枝を提案した。
この構造空間は多レベル特徴変調戦略を用いて画像空間にデコードされ、自己学習される
- 参考スコア(独自算出の注目度): 59.129960774988284
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite significant progress, controlled generation of complex images with
interacting people remains difficult. Existing layout generation methods fall
short of synthesizing realistic person instances; while pose-guided generation
approaches focus on a single person and assume simple or known backgrounds. To
tackle these limitations, we propose a new problem, \textbf{Persons in Context
Synthesis}, which aims to synthesize diverse person instance(s) in consistent
contexts, with user control over both. The context is specified by the bounding
box object layout which lacks shape information, while pose of the person(s) by
keypoints which are sparsely annotated. To handle the stark difference in input
structures, we proposed two separate neural branches to attentively composite
the respective (context/person) inputs into shared ``compositional structural
space'', which encodes shape, location and appearance information for both
context and person structures in a disentangled manner. This structural space
is then decoded to the image space using multi-level feature modulation
strategy, and learned in a self supervised manner from image collections and
their corresponding inputs. Extensive experiments on two large-scale datasets
(COCO-Stuff \cite{caesar2018cvpr} and Visual Genome \cite{krishna2017visual})
demonstrate that our framework outperforms state-of-the-art methods w.r.t.
synthesis quality.
- Abstract(参考訳): 著しい進歩にもかかわらず、相互作用する人々との複雑な画像の制御は依然として困難である。
既存のレイアウト生成手法は現実的な人物のインスタンスを合成するに足りず、ポーズ誘導型生成手法は一人の人物に焦点を当て、単純な背景や既知の背景を仮定する。
これらの制約に対処するために、ユーザ制御を両立させて、多様な個人インスタンスを一貫したコンテキストで合成することを目的とした、新しい問題であるtextbf{Persons in Context Synthesis}を提案する。
コンテキストは、形状情報を欠いたバウンディングボックスオブジェクトレイアウトで指定され、キーポイントによる人物のポーズは、わずかに注釈付けされている。
入力構造におけるスターク差に対処するため,各(コンテキスト/人物)入力を共用した「複合構造空間」に意図的に合成する2つの別個の神経枝を提案し,その形状,位置,外観情報を不整合な方法で符号化した。
この構造空間は、多レベル特徴変調戦略を用いて画像空間にデコードされ、画像収集とその対応する入力から自己教師付きで学習される。
2つの大規模データセット(coco-stuff \cite{caesar2018cvpr} と visual genome \cite{krishna2017visual})に関する広範囲な実験は、我々のフレームワークが最先端のメソッドw.r.t.合成品質を上回ることを示している。
関連論文リスト
- LoCo: Locally Constrained Training-Free Layout-to-Image Synthesis [24.925757148750684]
テキストプロンプトとレイアウト命令の両方に整合した高品質な画像を生成するのに優れたレイアウト・ツー・イメージ合成のためのトレーニング不要なアプローチを提案する。
LoCoは既存のテキスト・ツー・イメージモデルとレイアウト・ツー・イメージモデルにシームレスに統合され、空間制御の性能を高め、以前の方法で観察された意味障害に対処する。
論文 参考訳(メタデータ) (2023-11-21T04:28:12Z) - Enhancing Object Coherence in Layout-to-Image Synthesis [13.289854750239956]
本稿では,グローバル・セマンティック・フュージョン(GSF)と自己相似機能拡張モジュールを用いた新しい拡散モデルを提案する。
セマンティックコヒーレンスについては,イメージキャプションには画像内のオブジェクト内のセマンティックな関係を定義するための豊富な情報が含まれていると論じる。
物理コヒーレンスを改善するため,各画素の生成プロセスに局所的な物理的コヒーレンス関係を明示的に統合する自己相似コヒーレンスアテンション合成(SCA)モジュールを開発した。
論文 参考訳(メタデータ) (2023-11-17T13:43:43Z) - LayoutLLM-T2I: Eliciting Layout Guidance from LLM for Text-to-Image
Generation [121.45667242282721]
レイアウト計画と画像生成を実現するための粗大なパラダイムを提案する。
提案手法は,フォトリアリスティックなレイアウトと画像生成の観点から,最先端のモデルよりも優れている。
論文 参考訳(メタデータ) (2023-08-09T17:45:04Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - Layout-Bridging Text-to-Image Synthesis [20.261873143881573]
我々は、テキスト・ツー・イメージ生成とレイアウト・ツー・イメージ合成の両方において効果的なモデリングを推し進める。
入力テキストをレイアウト・ツー・イメージ合成プロセスに正確に組み込むために,レイアウト中のオブジェクトごとのテキスト・視覚的セマンティックアライメントを学習することに注力する。
論文 参考訳(メタデータ) (2022-08-12T08:21:42Z) - StyleT2I: Toward Compositional and High-Fidelity Text-to-Image Synthesis [52.341186561026724]
構成性の欠如は、堅牢性と公正性に深刻な影響を及ぼす可能性がある。
テキスト対画像合成の合成性を改善するための新しいフレームワークであるStyleT2Iを導入する。
その結果,StyleT2Iは入力テキストと合成画像との整合性という点で従来の手法よりも優れていた。
論文 参考訳(メタデータ) (2022-03-29T17:59:50Z) - Interactive Image Synthesis with Panoptic Layout Generation [14.1026819862002]
本稿では,Panoptic Layout Generative Adversarial Networks (PLGAN)を提案する。
PLGANは、アモルファス境界を持つ"stuff"と、明確に定義された形状を持つ"things"とを区別するパノプティクス理論を採用している。
我々は、COCO-Stuff、Visual Genome、Landscapeデータセット上の最先端のレイアウトベースモデルとPLGANを実験的に比較した。
論文 参考訳(メタデータ) (2022-03-04T02:45:27Z) - Content-aware Warping for View Synthesis [110.54435867693203]
本稿では,比較的大きな近傍の画素の重みを,軽量ニューラルネットワークによる文脈情報から適応的に学習するコンテンツ認識ワープを提案する。
この学習可能なワープモジュールに基づいて、2つのソースビューから新しいビューを合成するエンド・ツー・エンドの学習ベースのフレームワークを提案する。
広いベースラインと非構造的多視点データセットを有する構造的光フィールドデータセットの実験結果から,提案手法は,定量的かつ視覚的に,最先端の手法を著しく上回ることを示した。
論文 参考訳(メタデータ) (2022-01-22T11:35:05Z) - Integrating Visuospatial, Linguistic and Commonsense Structure into
Story Visualization [81.26077816854449]
まず、構造的入力を符号化するための選挙区解析木の利用について検討する。
第二に、構造化されたインプットをコモンセンス情報で強化し、この外部知識が視覚的ストーリーの生成に与える影響について検討する。
第3に、境界ボックスと高密度キャプションによって視覚構造を組み込んで、生成された画像の文字やオブジェクトに関するフィードバックを提供する。
論文 参考訳(メタデータ) (2021-10-21T00:16:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。