論文の概要: Scene Graph Expansion for Semantics-Guided Image Outpainting
- arxiv url: http://arxiv.org/abs/2205.02958v1
- Date: Thu, 5 May 2022 23:13:43 GMT
- ステータス: 処理完了
- システム内更新日: 2022-05-09 13:26:12.756519
- Title: Scene Graph Expansion for Semantics-Guided Image Outpainting
- Title(参考訳): セマンティクス誘導画像アウトパインティングのためのシーングラフ拡張
- Authors: Chiao-An Yang, Cheng-Yo Tan, Wan-Cyuan Fan, Cheng-Fu Yang, Meng-Lin
Wu, Yu-Chiang Frank Wang
- Abstract要約: 本稿では,ノードとエッジの特徴を関連する構造情報をモデル化するための入力として利用するSGT(Scene Graph Transformer)を提案する。
グラフベースの入力をよりよく理解し、処理するために、SGTはノードレベルとエッジレベルの両方で特徴的注意を独自に実行します。
レイアウトとシーングラフを持つ部分的な入力画像を考えると,SGTはシーングラフの拡張と完全なレイアウトへの変換に応用できることを示す。
- 参考スコア(独自算出の注目度): 27.249757777855176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this paper, we address the task of semantics-guided image outpainting,
which is to complete an image by generating semantically practical content.
Different from most existing image outpainting works, we approach the above
task by understanding and completing image semantics at the scene graph level.
In particular, we propose a novel network of Scene Graph Transformer (SGT),
which is designed to take node and edge features as inputs for modeling the
associated structural information. To better understand and process graph-based
inputs, our SGT uniquely performs feature attention at both node and edge
levels. While the former views edges as relationship regularization, the latter
observes the co-occurrence of nodes for guiding the attention process. We
demonstrate that, given a partial input image with its layout and scene graph,
our SGT can be applied for scene graph expansion and its conversion to a
complete layout. Following state-of-the-art layout-to-image conversions works,
the task of image outpainting can be completed with sufficient and practical
semantics introduced. Extensive experiments are conducted on the datasets of
MS-COCO and Visual Genome, which quantitatively and qualitatively confirm the
effectiveness of our proposed SGT and outpainting frameworks.
- Abstract(参考訳): 本稿では,意味論的に実践的なコンテンツを生成して画像を完成させることを目的としたセマンティックス誘導画像のアウトパインティングの課題に対処する。
既存の画像出力処理と異なり,シーングラフレベルでのイメージセマンティクスの理解と完成により,上記の課題にアプローチする。
特にSGT(Scene Graph Transformer)の新たなネットワークを提案する。これはノードとエッジの特徴を関連する構造情報をモデル化するための入力として扱うように設計されている。
グラフベースの入力をよりよく理解し、処理するために、SGTはノードレベルとエッジレベルの両方で特徴的注意を独自に実行します。
前者はエッジを関係正規化と見なすが、後者は注意プロセスを導くためにノードの共起を観察する。
レイアウトとシーングラフを持つ部分的な入力画像を考えると,SGTはシーングラフの拡張と完全なレイアウトへの変換に応用できることを示す。
最先端のレイアウトからイメージへの変換が機能すると、イメージを塗り替える作業は、十分な実用的セマンティクスで完了する。
提案手法の有効性を定量的に定量的に検証し,MS-COCOとVisual Genomeのデータセットを用いて実験を行った。
関連論文リスト
- Sketch-guided Image Inpainting with Partial Discrete Diffusion Process [5.005162730122933]
スケッチ誘導インペイントのための新しい部分離散拡散法(PDDP)を提案する。
PDDPは画像のマスキング領域を破損させ、手描きスケッチで条件付けられたこれらのマスキング領域を再構築する。
提案するトランスモジュールは,2つの入力を受信する。マスク領域を含む画像はインペイントされ,クエリスケッチは逆拡散過程をモデル化する。
論文 参考訳(メタデータ) (2024-04-18T07:07:38Z) - SelfGraphVQA: A Self-Supervised Graph Neural Network for Scene-based
Question Answering [0.0]
シーングラフはマルチモーダル画像解析の有用なツールとして登場した。
理想化されたアノテートシーングラフを利用する現在の手法は、画像から抽出された予測シーングラフを使用する場合、一般化に苦慮している。
本稿では,事前学習したシーングラフ生成器を用いて,入力画像からシーングラフを抽出する。
論文 参考訳(メタデータ) (2023-10-03T07:14:53Z) - FACTUAL: A Benchmark for Faithful and Consistent Textual Scene Graph
Parsing [66.70054075041487]
画像キャプションをシーングラフに変換する既存のシーングラフは、しばしば2種類のエラーに悩まされる。
まず、生成されたシーングラフはキャプションや対応する画像の真の意味を捉えず、忠実さの欠如をもたらす。
第二に、生成されたシーングラフは一貫性が高く、同じセマンティクスは異なるアノテーションで表される。
論文 参考訳(メタデータ) (2023-05-27T15:38:31Z) - SGDraw: Scene Graph Drawing Interface Using Object-Oriented
Representation [18.109884282338356]
オブジェクト指向シーングラフ表現を用いたシーングラフ描画インタフェースであるSGDrawを提案する。
SGDrawはより詳細なシーングラフを生成するのに役立ち、従来のバウンディングボックスアノテーションよりも正確に画像を記述することができる。
論文 参考訳(メタデータ) (2022-11-30T02:35:09Z) - Diffusion-Based Scene Graph to Image Generation with Masked Contrastive
Pre-Training [112.94542676251133]
画像とのアライメントを直接最適化することで,シーングラフの埋め込みを学習する。
具体的には,シーングラフからグローバル情報とローカル情報の両方を抽出するエンコーダを事前訓練する。
SGDiffと呼ばれる結果の方法は、シーングラフノードと接続を変更することによって生成された画像のセマンティックな操作を可能にする。
論文 参考訳(メタデータ) (2022-11-21T01:11:19Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Image Semantic Relation Generation [0.76146285961466]
シーングラフは複雑な画像情報を排除し、意味レベルの関係を利用して視覚モデルのバイアスを修正することができる。
本研究では,画像意味関係生成(ISRG)を提案する。
論文 参考訳(メタデータ) (2022-10-19T16:15:19Z) - Scene Graph Modification as Incremental Structure Expanding [61.84291817776118]
本研究では,既存のシーングラフを自然言語クエリに基づいて更新する方法を学習するために,シーングラフ修正(SGM)に注目した。
インクリメンタル構造拡張(ISE)の導入によるグラフ拡張タスクとしてのSGM
既存のデータセットよりも複雑なクエリと大きなシーングラフを含む、挑戦的なデータセットを構築します。
論文 参考訳(メタデータ) (2022-09-15T16:26:14Z) - Example-Guided Image Synthesis across Arbitrary Scenes using Masked
Spatial-Channel Attention and Self-Supervision [83.33283892171562]
実例誘導画像合成は,最近セマンティックラベルマップと模範画像から画像を合成するために試みられている。
本稿では,ラベルマップと意味的に異なる任意のシーンイメージを例に,より困難で汎用的な課題に取り組む。
本稿では,グローバル・ローカルな特徴アライメントと合成のためのエンドツーエンドネットワークを提案する。
論文 参考訳(メタデータ) (2020-04-18T18:17:40Z) - Semantic Image Manipulation Using Scene Graphs [105.03614132953285]
本稿では,星座変更や画像編集を直接監督する必要のないシーングラフネットワークを提案する。
これにより、追加のアノテーションを使わずに、既存の実世界のデータセットからシステムをトレーニングすることができる。
論文 参考訳(メタデータ) (2020-04-07T20:02:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。