論文の概要: MagiCapture: High-Resolution Multi-Concept Portrait Customization
- arxiv url: http://arxiv.org/abs/2309.06895v1
- Date: Wed, 13 Sep 2023 11:37:04 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-14 14:30:59.004989
- Title: MagiCapture: High-Resolution Multi-Concept Portrait Customization
- Title(参考訳): MagiCapture: 高解像度マルチコンセプトポートレートカスタマイズ
- Authors: Junha Hyung, Jaeyo Shin, and Jaegul Choo
- Abstract要約: MagiCaptureは、高解像度のポートレート画像を生成するために、主題とスタイルの概念を統合するパーソナライズ方法である。
本稿では,この弱教師付き学習環境内での頑健な学習を支援する,補助的先行学習と組み合わせた注意再焦点損失について紹介する。
私たちのパイプラインには、非常に現実的なアウトプットの生成を保証するための、追加のプロセス後ステップも含まれています。
- 参考スコア(独自算出の注目度): 34.131515004434846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale text-to-image models including Stable Diffusion are capable of
generating high-fidelity photorealistic portrait images. There is an active
research area dedicated to personalizing these models, aiming to synthesize
specific subjects or styles using provided sets of reference images. However,
despite the plausible results from these personalization methods, they tend to
produce images that often fall short of realism and are not yet on a
commercially viable level. This is particularly noticeable in portrait image
generation, where any unnatural artifact in human faces is easily discernible
due to our inherent human bias. To address this, we introduce MagiCapture, a
personalization method for integrating subject and style concepts to generate
high-resolution portrait images using just a few subject and style references.
For instance, given a handful of random selfies, our fine-tuned model can
generate high-quality portrait images in specific styles, such as passport or
profile photos. The main challenge with this task is the absence of ground
truth for the composed concepts, leading to a reduction in the quality of the
final output and an identity shift of the source subject. To address these
issues, we present a novel Attention Refocusing loss coupled with auxiliary
priors, both of which facilitate robust learning within this weakly supervised
learning setting. Our pipeline also includes additional post-processing steps
to ensure the creation of highly realistic outputs. MagiCapture outperforms
other baselines in both quantitative and qualitative evaluations and can also
be generalized to other non-human objects.
- Abstract(参考訳): 安定拡散を含む大規模テキスト対画像モデルは、高忠実度フォトリアリスティックなポートレート画像を生成することができる。
これらのモデルをパーソナライズする活動的な研究領域があり、提供された参照画像を用いて特定の主題やスタイルを合成することを目的としている。
しかし、こうしたパーソナライズ手法によるもっともらしい結果にもかかわらず、現実主義に欠け、まだ商業的に実現可能なレベルには達していないイメージをしばしば生成する傾向にある。
これは、人間の顔の不自然なアーチファクトが、人間固有の偏見のために容易に識別できるポートレート画像生成において特に顕著である。
そこで本研究では,被写体とスタイルの概念を統合し,数個の被写体とスタイルの参照を用いて高精細なポートレート画像を生成するパーソナライズ手法であるmagicaptureを提案する。
例えば、一握りのランダムなセルフィーがあれば、われわれの微調整されたモデルは、パスポートやプロフィール写真など、特定のスタイルで高品質なポートレート画像を生成することができる。
このタスクの主な課題は、構成された概念に対する基礎的真理の欠如であり、最終的な出力の品質の低下と、ソースの主題のアイデンティティシフトにつながる。
これらの課題に対処するために,この弱教師付き学習環境内での頑健な学習を促進する補助的事前学習と合わせて,新たな注意再焦点損失を提案する。
私たちのパイプラインには、非常に現実的なアウトプットを作成するための、追加の処理ステップも含まれています。
MagiCaptureは定量評価と定性評価の両方において他のベースラインよりも優れており、他の非人間オブジェクトにも一般化することができる。
関連論文リスト
- ArtiFade: Learning to Generate High-quality Subject from Blemished Images [10.112125529627157]
ArtiFadeは、事前トレーニングされたテキスト-画像モデルの微調整を利用して、アーティファクトを削除する。
ArtiFadeはまた、拡散モデルに固有のオリジナルの生成機能の保存も保証している。
論文 参考訳(メタデータ) (2024-09-05T17:57:59Z) - Dual-Branch Network for Portrait Image Quality Assessment [76.27716058987251]
ポートレート画像品質評価のためのデュアルブランチネットワーク(PIQA)を提案する。
我々は2つのバックボーンネットワーク(textiti.e., Swin Transformer-B)を使用して、肖像画全体と顔画像から高品質な特徴を抽出する。
我々は、画像シーンの分類と品質評価モデルであるLIQEを利用して、品質認識とシーン固有の特徴を補助的特徴として捉えている。
論文 参考訳(メタデータ) (2024-05-14T12:43:43Z) - StyleRetoucher: Generalized Portrait Image Retouching with GAN Priors [30.000584682643183]
StyleRetoucherは、新しい自動ポートレートイメージリタッチフレームワークである。
本手法は,顔の詳細を保存しながら,入力像の皮膚状態を改善する。
そこで本研究では,皮膚のブレンディッシュを効果的に識別し,除去するための新規なブレンディッシュ認識機能選択機構を提案する。
論文 参考訳(メタデータ) (2023-12-22T02:32:19Z) - Learning Subject-Aware Cropping by Outpainting Professional Photos [69.0772948657867]
本稿では,高品質な主観的作物を生産する要因を,プロのストックイメージから学習するための弱教師付きアプローチを提案する。
私たちの洞察は、ストックイメージのライブラリと、最新のトレーニング済みのテキスト-画像拡散モデルを組み合わせることです。
我々は、収穫された無作為のトレーニングペアの大規模なデータセットを自動的に生成して、収穫モデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-19T11:57:54Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。
Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。
本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-05T11:02:45Z) - WebtoonMe: A Data-Centric Approach for Full-Body Portrait Stylization [5.2661965280415926]
プロダクションレベルのフルボディ・ポートレート・スタイリングシステムを構築するためのデータ中心のソリューションを提案する。
この2段階のスキームに基づいて,新しい高度なデータセット作成パラダイムを構築した。
実験の結果、パイプラインでは、付加的な損失やアーキテクチャの変更なしに高品質なポートレートスタイリングが達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-19T07:09:03Z) - CtlGAN: Few-shot Artistic Portraits Generation with Contrastive Transfer
Learning [77.27821665339492]
CtlGANは、新しいコントラッシブ・トランスファー学習戦略を備えた、数発のアート・ポートレート生成モデルである。
ソースドメインで事前訓練したStyleGANを,対象の芸術領域に適応させる。
実面をZ+空間に埋め込んだ新しいエンコーダを提案し,適応型デコーダに対処するためのデュアルパストレーニング戦略を提案する。
論文 参考訳(メタデータ) (2022-03-16T13:28:17Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。