論文の概要: Exploiting Relationship for Complex-scene Image Generation
- arxiv url: http://arxiv.org/abs/2104.00356v1
- Date: Thu, 1 Apr 2021 09:21:39 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-02 13:38:00.971306
- Title: Exploiting Relationship for Complex-scene Image Generation
- Title(参考訳): 複雑なシーン画像生成のための爆発的関係
- Authors: Tianyu Hua, Hongdong Zheng, Yalong Bai, Wei Zhang, Xiao-Ping Zhang,
Tao Mei
- Abstract要約: 本研究では,複数のオブジェクトをシーングラフとして関連づける関係認識型複素画像生成について考察する。
生成フレームワークに3つの大きなアップデートを提案する。
第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。
第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。
第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。
- 参考スコア(独自算出の注目度): 43.022978211274065
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The significant progress on Generative Adversarial Networks (GANs) has
facilitated realistic single-object image generation based on language input.
However, complex-scene generation (with various interactions among multiple
objects) still suffers from messy layouts and object distortions, due to
diverse configurations in layouts and appearances. Prior methods are mostly
object-driven and ignore their inter-relations that play a significant role in
complex-scene images. This work explores relationship-aware complex-scene image
generation, where multiple objects are inter-related as a scene graph. With the
help of relationships, we propose three major updates in the generation
framework. First, reasonable spatial layouts are inferred by jointly
considering the semantics and relationships among objects. Compared to standard
location regression, we show relative scales and distances serve a more
reliable target. Second, since the relations between objects significantly
influence an object's appearance, we design a relation-guided generator to
generate objects reflecting their relationships. Third, a novel scene graph
discriminator is proposed to guarantee the consistency between the generated
image and the input scene graph. Our method tends to synthesize plausible
layouts and objects, respecting the interplay of multiple objects in an image.
Experimental results on Visual Genome and HICO-DET datasets show that our
proposed method significantly outperforms prior arts in terms of IS and FID
metrics. Based on our user study and visual inspection, our method is more
effective in generating logical layout and appearance for complex-scenes.
- Abstract(参考訳): GAN(Generative Adversarial Networks)の大幅な進歩により、言語入力に基づく現実的な単一オブジェクト画像生成が容易になった。
しかし、複雑なシーン生成(複数のオブジェクト間の様々な相互作用)は、レイアウトや外観の多様な構成のため、いまだに乱雑なレイアウトやオブジェクトの歪みに悩まされている。
従来のメソッドはほとんどがオブジェクト駆動であり、複雑なシーンイメージにおいて重要な役割を果たす相互関係を無視する。
本研究は、複数のオブジェクトがシーングラフとして相互に関連づけられる、関係を意識した複雑なシーン画像生成を探求する。
関係の助けを借りて、生成フレームワークに3つの大きなアップデートを提案する。
第一に、合理的な空間レイアウトは、オブジェクト間の意味と関係を共同で考慮することで推測される。
標準的な位置回帰と比較すると、相対的なスケールと距離はより信頼性の高いターゲットとなる。
第2に,オブジェクト間の関係がオブジェクトの外観に大きく影響するため,オブジェクト間の関係を反映するオブジェクトを生成するための関係誘導ジェネレータを設計する。
第3に,生成画像と入力シーングラフの一貫性を保証するため,新たなシーングラフ判別器を提案する。
本手法は,画像中の複数のオブジェクトの相互作用を考慮し,妥当なレイアウトとオブジェクトを合成する傾向がある。
視覚ゲノムとHICO-DETデータセットによる実験結果から,提案手法はISとFIDの指標で先行技術よりも有意に優れていた。
本手法は, ユーザ調査と視覚検査により, 複雑なシーンの論理レイアウトや外観生成に有効である。
関連論文リスト
- RelationBooth: Towards Relation-Aware Customized Object Generation [32.762475563341525]
リレーショナルブース(RelationBooth)は、よく計算されたデータセットを通じて、アイデンティティとリレーショナルラーニングをアンハングリングするフレームワークである。
トレーニングデータには,関係固有画像,アイデンティティ情報を含む独立オブジェクト画像,関係生成をガイドするテキストプロンプトが含まれている。
まず,関係に密接に結びついたオブジェクトのポーズを調整する際に,効果的にモデルを導くキーポイントマッチング損失を導入する。
第二に、画像のプロンプトから局所的な特徴を取り入れて、オブジェクトの区別をより良くし、重複するケースの混同を防ぐ。
論文 参考訳(メタデータ) (2024-10-30T17:57:21Z) - CommonScenes: Generating Commonsense 3D Indoor Scenes with Scene Graph
Diffusion [83.30168660888913]
シーングラフを対応する制御可能な3Dシーンに変換する完全生成モデルであるCommonScenesを提案する。
パイプラインは2つのブランチで構成されており、1つは変分オートエンコーダでシーン全体のレイアウトを予測し、もう1つは互換性のある形状を生成する。
生成されたシーンは、入力シーングラフを編集し、拡散モデルのノイズをサンプリングすることで操作することができる。
論文 参考訳(メタデータ) (2023-05-25T17:39:13Z) - Learning-based Relational Object Matching Across Views [63.63338392484501]
本稿では,RGB画像間のオブジェクト検出をマッチングするための,局所キーポイントと新たなオブジェクトレベルの特徴を組み合わせた学習ベースアプローチを提案する。
我々は、連想グラフニューラルネットワークにおいて、オブジェクト間の外観とフレーム間およびフレーム間空間関係に基づいて、オブジェクトレベルのマッチング機能を訓練する。
論文 参考訳(メタデータ) (2023-05-03T19:36:51Z) - Hand-Object Interaction Image Generation [135.87707468156057]
この仕事は、新しいタスク、すなわち手動オブジェクトのインタラクション画像生成に特化している。
与えられた手、オブジェクト、それらの相互作用状態の下で、条件付きハンドオブジェクト画像を生成することを目的としている。
このタスクは、AR/VRゲームやオンラインショッピングなど、多くの潜在的なアプリケーションシナリオにおいて、挑戦的で研究に値するものだ。
論文 参考訳(メタデータ) (2022-11-28T18:59:57Z) - Grounding Scene Graphs on Natural Images via Visio-Lingual Message
Passing [17.63475613154152]
本稿では,シーングラフの特定の意味的関係制約に従うオブジェクトを協調的にグラウンド化するためのフレームワークを提案する。
シーングラフは、画像内のすべてのオブジェクトとその意味的関係を表現するための効率的で構造化された方法である。
論文 参考訳(メタデータ) (2022-11-03T16:46:46Z) - Relationformer: A Unified Framework for Image-to-Graph Generation [18.832626244362075]
この研究は、オブジェクトとその関係を共同で予測する一段階トランスフォーマーベースの統合フレームワークであるRelationformerを提案する。
我々は、直接セットベースのオブジェクト予測を活用し、オブジェクト間の相互作用を取り入れて、オブジェクト関係表現を共同で学習する。
複数、多種多様な、複数ドメインのデータセット上で、最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2022-03-19T00:36:59Z) - Scenes and Surroundings: Scene Graph Generation using Relation
Transformer [13.146732454123326]
この研究は、リレーショナルトランスと呼ばれる新しいローカルコンテキスト対応アーキテクチャを提案する。
階層的マルチヘッドアテンションに基づくアプローチは、オブジェクト間のコンテキスト依存を効率的に捕捉し、それらの関係を予測する。
最先端のアプローチと比較して、私たちは全体として、textbf4.85%の改善を達成しました。
論文 参考訳(メタデータ) (2021-07-12T14:22:20Z) - ORD: Object Relationship Discovery for Visual Dialogue Generation [60.471670447176656]
視覚対話生成のためのオブジェクトインタラクションを保存するためのオブジェクト関係探索(ORD)フレームワークを提案する。
階層的なグラフ畳み込みネットワーク (HierGCN) が提案され、オブジェクトノードと近傍の関係を局所的に保持し、オブジェクトとオブジェクトの接続をグローバルに洗練する。
実験により,視覚的関係の文脈情報を活用することにより,対話の質を大幅に向上できることが示された。
論文 参考訳(メタデータ) (2020-06-15T12:25:40Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。