論文の概要: PRISM: Progressive Restoration for Scene Graph-based Image Manipulation
- arxiv url: http://arxiv.org/abs/2311.02247v1
- Date: Fri, 3 Nov 2023 21:30:34 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-07 18:46:33.888385
- Title: PRISM: Progressive Restoration for Scene Graph-based Image Manipulation
- Title(参考訳): prism: シーングラフに基づく画像操作のためのプログレッシブ復元
- Authors: Pavel Jahoda, Azade Farshad, Yousef Yeganeh, Ehsan Adeli, Nassir Navab
- Abstract要約: PRISMは、シーン内の操作された領域の精度と品質を改善するために、新しいマルチヘッド画像操作手法である。
本研究は,シーングラフに基づく画像操作の品質と精度を高めるためのアプローチの可能性を示すものである。
- 参考スコア(独自算出の注目度): 47.77003316561398
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scene graphs have emerged as accurate descriptive priors for image generation
and manipulation tasks, however, their complexity and diversity of the shapes
and relations of objects in data make it challenging to incorporate them into
the models and generate high-quality results. To address these challenges, we
propose PRISM, a novel progressive multi-head image manipulation approach to
improve the accuracy and quality of the manipulated regions in the scene. Our
image manipulation framework is trained using an end-to-end denoising masked
reconstruction proxy task, where the masked regions are progressively unmasked
from the outer regions to the inner part. We take advantage of the outer part
of the masked area as they have a direct correlation with the context of the
scene. Moreover, our multi-head architecture simultaneously generates detailed
object-specific regions in addition to the entire image to produce
higher-quality images. Our model outperforms the state-of-the-art methods in
the semantic image manipulation task on the CLEVR and Visual Genome datasets.
Our results demonstrate the potential of our approach for enhancing the quality
and precision of scene graph-based image manipulation.
- Abstract(参考訳): シーングラフは、画像生成と操作タスクの正確な記述的先行として登場したが、データ中のオブジェクトの形状と関係の複雑さと多様性は、それらをモデルに組み込んで高品質な結果を生成するのを困難にしている。
これらの課題に対処するため,我々は,シーン内の操作領域の精度と品質を向上させるための,新しいプログレッシブマルチヘッド画像操作手法であるprismを提案する。
画像操作フレームワークは、マスク付き領域を段階的に外側から内側へ切り離す、エンドツーエンドのマスク付き再構成プロキシタスクを用いて訓練される。
我々は、シーンのコンテキストと直接相関するので、マスク領域の外側の利点を生かしている。
さらに,このマルチヘッドアーキテクチャは画像全体に加えて,詳細なオブジェクト固有領域を同時に生成し,高品質な画像を生成する。
我々のモデルは,CLEVRおよびVisual Genomeデータセットのセマンティックイメージ操作タスクにおいて,最先端の手法よりも優れている。
本研究は,シーングラフに基づく画像操作の品質と精度を向上させるための手法の可能性を示す。
関連論文リスト
- Scene Graph Disentanglement and Composition for Generalizable Complex Image Generation [44.457347230146404]
我々は、複雑な画像生成に強力な構造化表現であるシーングラフを利用する。
本稿では,変分オートエンコーダと拡散モデルの生成能力を一般化可能な方法で活用する。
本手法は,テキスト,レイアウト,シーングラフに基づいて,近年の競合より優れています。
論文 参考訳(メタデータ) (2024-10-01T07:02:46Z) - Sketch-guided Image Inpainting with Partial Discrete Diffusion Process [5.005162730122933]
スケッチ誘導インペイントのための新しい部分離散拡散法(PDDP)を提案する。
PDDPは画像のマスキング領域を破損させ、手描きスケッチで条件付けられたこれらのマスキング領域を再構築する。
提案するトランスモジュールは,2つの入力を受信する。マスク領域を含む画像はインペイントされ,クエリスケッチは逆拡散過程をモデル化する。
論文 参考訳(メタデータ) (2024-04-18T07:07:38Z) - BrushNet: A Plug-and-Play Image Inpainting Model with Decomposed
Dual-Branch Diffusion [61.90969199199739]
BrushNetは、ピクセルレベルのマスク付きイメージ機能を事前訓練されたDMに埋め込むために設計された、新しいプラグアンドプレイデュアルブランチモデルである。
BrushNetは、画像品質、マスク領域保存、テキストコヒーレンスを含む7つの主要な指標で、既存のモデルよりも優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2024-03-11T17:59:31Z) - Pixel-Inconsistency Modeling for Image Manipulation Localization [59.968362815126326]
デジタル画像法医学は、画像認証と操作のローカライゼーションにおいて重要な役割を果たす。
本稿では,画素不整合アーチファクトの解析を通じて,一般化されたロバストな操作ローカライゼーションモデルを提案する。
実験により,本手法は固有の画素不整合偽指紋を抽出することに成功した。
論文 参考訳(メタデータ) (2023-09-30T02:54:51Z) - High-Quality Entity Segmentation [110.55724145851725]
CropFormerは高解像度画像におけるインスタンスレベルのセグメンテーションの難易度に対処するために設計されている。
よりきめ細かい画像とフルイメージを提供する高解像度の画像作物を融合することで、マスク予測を改善する。
CropFormerでは、難易度の高いエンティティセグメンテーションタスクで1.9ドルという大きなAP利益を達成しています。
論文 参考訳(メタデータ) (2022-11-10T18:58:22Z) - DisPositioNet: Disentangled Pose and Identity in Semantic Image
Manipulation [83.51882381294357]
DisPositioNetは、シーングラフを用いた画像操作のタスクに対して、各オブジェクトのアンタングル表現を学習するモデルである。
我々のフレームワークは、グラフ内の特徴表現と同様に、変分潜在埋め込みの切り離しを可能にする。
論文 参考訳(メタデータ) (2022-11-10T11:47:37Z) - Joint Learning of Deep Texture and High-Frequency Features for
Computer-Generated Image Detection [24.098604827919203]
本稿では,CG画像検出のための深いテクスチャと高周波特徴を有する共同学習戦略を提案する。
セマンティックセグメンテーションマップを生成して、アフィン変換操作を誘導する。
原画像と原画像の高周波成分の組み合わせを、注意機構を備えたマルチブランチニューラルネットワークに供給する。
論文 参考訳(メタデータ) (2022-09-07T17:30:40Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Domain Adaptation with Morphologic Segmentation [8.0698976170854]
本稿では,任意の入力領域(実領域と合成領域)の画像を一様出力領域に変換するために,形態的セグメンテーションを用いた新しいドメイン適応フレームワークを提案する。
私たちのゴールは、複数のソースからのデータを共通の表現に統一する前処理のステップを確立することです。
都市景観のシミュレートと実データの4つのデータ集合上で, 定性的に定量的に評価し, 提案手法の有効性を示す。
論文 参考訳(メタデータ) (2020-06-16T17:06:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。