論文の概要: Learning Flow Fields in Attention for Controllable Person Image Generation
- arxiv url: http://arxiv.org/abs/2412.08486v1
- Date: Wed, 11 Dec 2024 15:51:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-12 14:02:11.980528
- Title: Learning Flow Fields in Attention for Controllable Person Image Generation
- Title(参考訳): 制御可能な人物画像生成のための注意の流れ場学習
- Authors: Zijian Zhou, Shikun Liu, Xiao Han, Haozhe Liu, Kam Woh Ng, Tian Xie, Yuren Cong, Hang Li, Mengmeng Xu, Juan-Manuel Pérez-Rúa, Aditya Patel, Tao Xiang, Miaojing Shi, Sen He,
- Abstract要約: 制御可能な人物画像生成は、参照画像に条件付けされた人物画像を生成することを目的としている。
そこで本研究では,対象クエリに対して,適切な参照キーへの参照を明示的にガイドする学習フロー場(Leffa)を提案する。
Leffaは外観(仮想試行)とポーズ(目的移動)の制御における最先端のパフォーマンスを実現し、細かなディテール歪みを著しく低減する。
- 参考スコア(独自算出の注目度): 59.10843756343987
- License:
- Abstract: Controllable person image generation aims to generate a person image conditioned on reference images, allowing precise control over the person's appearance or pose. However, prior methods often distort fine-grained textural details from the reference image, despite achieving high overall image quality. We attribute these distortions to inadequate attention to corresponding regions in the reference image. To address this, we thereby propose learning flow fields in attention (Leffa), which explicitly guides the target query to attend to the correct reference key in the attention layer during training. Specifically, it is realized via a regularization loss on top of the attention map within a diffusion-based baseline. Our extensive experiments show that Leffa achieves state-of-the-art performance in controlling appearance (virtual try-on) and pose (pose transfer), significantly reducing fine-grained detail distortion while maintaining high image quality. Additionally, we show that our loss is model-agnostic and can be used to improve the performance of other diffusion models.
- Abstract(参考訳): 制御可能な人物画像生成は、参照画像に条件付けされた人物画像を生成し、その人物の外観やポーズを正確に制御することを目的としている。
しかし,従来の手法では画像の画質が高いにもかかわらず,参照画像から微細なテクスチャの詳細を歪ませることが多かった。
これらの歪みは参照画像の対応する領域に不適切な注意を与える。
そこで本研究では,注意層内の適切な参照キーに対応するために,対象クエリを明示的にガイドする学習フロー場(Leffa)を提案する。
具体的には,拡散ベースライン内のアテンションマップ上における正規化損失によって実現される。
広汎な実験により,レファは外観(仮想試行)とポーズ(目的移動)を制御し,高画質を維持しながら微細なディテール歪みを著しく低減できることがわかった。
さらに,この損失はモデルに依存しず,他の拡散モデルの性能向上に有効であることを示す。
関連論文リスト
- Masked Extended Attention for Zero-Shot Virtual Try-On In The Wild [17.025262797698364]
仮想トライオン(Virtual Try-On)は、人物や衣服の特徴を保ちながら、画像中の衣服を別のものに置き換えることを目的としている。
現在の文献では、タスクの教師付きアプローチを採用し、一般化を損なうとともに、重い計算を課している。
本稿では,衣服の着衣を参考に塗布するためのゼロショットトレーニングフリーな新しい手法を提案する。
論文 参考訳(メタデータ) (2024-06-21T17:45:37Z) - DiffUHaul: A Training-Free Method for Object Dragging in Images [78.93531472479202]
DiffUHaulと呼ばれるオブジェクトドラッグタスクのためのトレーニング不要な手法を提案する。
まず、各認知段階に注意マスキングを適用して、各生成を異なるオブジェクトにまたがってよりゆがみやすくする。
初期のデノナイジングステップでは、ソース画像とターゲット画像の注意特徴を補間して、新しいレイアウトを元の外観とスムーズに融合させる。
論文 参考訳(メタデータ) (2024-06-03T17:59:53Z) - Free-ATM: Exploring Unsupervised Learning on Diffusion-Generated Images
with Free Attention Masks [64.67735676127208]
テキストと画像の拡散モデルは、画像認識の恩恵を受ける大きな可能性を示している。
有望ではあるが、拡散生成画像の教師なし学習に特化した調査は不十分である。
上記フリーアテンションマスクをフル活用することで、カスタマイズされたソリューションを導入する。
論文 参考訳(メタデータ) (2023-08-13T10:07:46Z) - Masked Image Training for Generalizable Deep Image Denoising [53.03126421917465]
本稿では,デノナイジングネットワークの一般化性能を高めるための新しい手法を提案する。
提案手法では,入力画像のランダムなピクセルをマスキングし,学習中に欠落した情報を再構成する。
提案手法は,他のディープラーニングモデルよりも優れた一般化能力を示し,実世界のシナリオに直接適用可能である。
論文 参考訳(メタデータ) (2023-03-23T09:33:44Z) - LTT-GAN: Looking Through Turbulence by Inverting GANs [86.25869403782957]
本稿では,よく訓練されたGANによってカプセル化された視覚的事前情報を利用した最初の乱流緩和手法を提案する。
視覚的先行性に基づき、周期的な文脈距離で復元された画像の同一性を維持することを学ぶことを提案する。
本手法は, 回復した結果の視覚的品質と顔認証精度の両方において, 先行技術よりも優れていた。
論文 参考訳(メタデータ) (2021-12-04T16:42:13Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z) - Learning Edge-Preserved Image Stitching from Large-Baseline Deep
Homography [32.28310831466225]
本稿では,大規模なベースライン深部ホログラフィモジュールとエッジ保存変形モジュールからなる画像縫合学習フレームワークを提案する。
本手法は既存の学習方法よりも優れ,最先端の従来の手法と競合する性能を示す。
論文 参考訳(メタデータ) (2020-12-11T08:43:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。