論文の概要: MaskSketch: Unpaired Structure-guided Masked Image Generation
- arxiv url: http://arxiv.org/abs/2302.05496v1
- Date: Fri, 10 Feb 2023 20:27:02 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-14 20:04:20.440011
- Title: MaskSketch: Unpaired Structure-guided Masked Image Generation
- Title(参考訳): masksketch: 非ペア構造誘導マスク画像生成
- Authors: Dina Bashkirova, Jose Lezama, Kihyuk Sohn, Kate Saenko and Irfan Essa
- Abstract要約: MaskSketchは、サンプリング中の余分な条件信号としてガイドスケッチを使用して生成結果の空間的条件付けを可能にする画像生成方法である。
マスク付き生成変換器の中間自己アテンションマップが入力画像の重要な構造情報を符号化していることを示す。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
- 参考スコア(独自算出の注目度): 56.88038469743742
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent conditional image generation methods produce images of remarkable
diversity, fidelity and realism. However, the majority of these methods allow
conditioning only on labels or text prompts, which limits their level of
control over the generation result. In this paper, we introduce MaskSketch, an
image generation method that allows spatial conditioning of the generation
result using a guiding sketch as an extra conditioning signal during sampling.
MaskSketch utilizes a pre-trained masked generative transformer, requiring no
model training or paired supervision, and works with input sketches of
different levels of abstraction. We show that intermediate self-attention maps
of a masked generative transformer encode important structural information of
the input image, such as scene layout and object shape, and we propose a novel
sampling method based on this observation to enable structure-guided
generation. Our results show that MaskSketch achieves high image realism and
fidelity to the guiding structure. Evaluated on standard benchmark datasets,
MaskSketch outperforms state-of-the-art methods for sketch-to-image
translation, as well as unpaired image-to-image translation approaches.
- Abstract(参考訳): 最近の条件付き画像生成手法は、顕著な多様性、忠実性、リアリズムのイメージを生成する。
しかし、これらの手法の大部分はラベルやテキストプロンプトのみを条件付けできるため、生成結果に対する制御のレベルが制限される。
本稿では,サンプリング中の余分なコンディショニング信号としてガイドスケッチを用いた生成結果の空間的コンディショニングを可能にする画像生成手法であるmasksketchを提案する。
masksketchは、事前訓練されたマスク生成トランスを使用し、モデルのトレーニングやペアの監督を必要としない。
本研究では,マスキング生成トランスの中間自己位置マップがシーンレイアウトや物体形状などの入力画像の重要な構造情報を符号化することを示すとともに,この観察に基づく新しいサンプリング手法を提案する。
以上の結果から,MaskSketchは誘導構造に対する高画像リアリズムと忠実性を実現する。
masksketchは標準的なベンチマークデータセットで評価され、スケッチから画像への変換の最先端の手法や、画像から画像への変換のアプローチよりも優れている。
関連論文リスト
- From Pixels to Components: Eigenvector Masking for Visual Representation Learning [55.567395509598065]
画像の可視部分からマスクを予測することは、視覚表現学習のための強力な自己教師型アプローチである。
本稿では,生のピクセルではなく,適切なデータ変換を行うマスキング戦略を提案する。
論文 参考訳(メタデータ) (2025-02-10T10:06:46Z) - Improving Masked Autoencoders by Learning Where to Mask [65.89510231743692]
マスケ画像モデリングは視覚データに対する有望な自己教師型学習手法である。
本稿では,Gumbel-Softmax を用いて,対向学習マスク生成装置とマスク誘導画像モデリングプロセスとを相互接続するフレームワーク AutoMAE を提案する。
実験の結果,AutoMAEは,標準の自己監督型ベンチマークや下流タスクに対して,効果的な事前学習モデルを提供することがわかった。
論文 参考訳(メタデータ) (2023-03-12T05:28:55Z) - StrucTexTv2: Masked Visual-Textual Prediction for Document Image
Pre-training [64.37272287179661]
StrucTexTv2は、効果的なドキュメントイメージ事前トレーニングフレームワークである。
マスク付き画像モデリングとマスク付き言語モデリングの2つの自己教師付き事前訓練タスクで構成されている。
画像分類、レイアウト解析、テーブル構造認識、ドキュメントOCR、情報抽出など、さまざまな下流タスクにおいて、競合的あるいは新しい最先端パフォーマンスを実現する。
論文 参考訳(メタデータ) (2023-03-01T07:32:51Z) - MaskGIT: Masked Generative Image Transformer [49.074967597485475]
MaskGITは、ランダムにマスクされたトークンを、あらゆる方向にトークンに出席することによって予測することを学ぶ。
実験により、MaskGITはImageNetデータセット上で最先端のトランスフォーマーモデルを大幅に上回っていることが示された。
論文 参考訳(メタデータ) (2022-02-08T23:54:06Z) - Image Generation with Self Pixel-wise Normalization [17.147675335268282]
領域適応正規化(RAN)法はGAN(Generative Adversarial Network)に基づく画像と画像の変換技術で広く用いられている。
本稿では,マスク画像のない画素適応アフィン変換を行うことにより,自己画素ワイド正規化(SPN)と呼ばれる新しい正規化手法を提案する。
論文 参考訳(メタデータ) (2022-01-26T03:14:31Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z) - Image Inpainting with Edge-guided Learnable Bidirectional Attention Maps [85.67745220834718]
不規則な穴の画像インペインティングを改善するためのエッジガイド学習可能な双方向注意マップ(Edge-LBAM)を紹介します。
当社のEdge-LBAMメソッドには、予測エッジによる構造認識マスク更新を含むデュアルプロシージャが含まれています。
広範な実験により,エッジlbamはコヒーレントな画像構造を生成し,色差やぼやけを防止できることがわかった。
論文 参考訳(メタデータ) (2021-04-25T07:25:16Z) - Learning Layout and Style Reconfigurable GANs for Controllable Image
Synthesis [12.449076001538552]
本稿では,空間的レイアウトからフォトリアリスティックなイメージを合成できる生成モデルを学習するための,最近の課題であるレイアウト・トゥ・イメージ(レイアウト・トゥ・イメージ)に焦点を当てる。
画像レベルでのスタイル制御は、バニラGANと同じであり、オブジェクトマスクレベルでのスタイル制御は、新しい特徴正規化方式によって実現される。
実験では,COCO-StuffデータセットとVisual Genomeデータセットを用いて,最先端の性能の検証を行った。
論文 参考訳(メタデータ) (2020-03-25T18:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。