論文の概要: MagiCapture: High-Resolution Multi-Concept Portrait Customization
- arxiv url: http://arxiv.org/abs/2309.06895v2
- Date: Fri, 2 Feb 2024 16:55:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-05 19:53:29.981365
- Title: MagiCapture: High-Resolution Multi-Concept Portrait Customization
- Title(参考訳): MagiCapture: 高解像度マルチコンセプトポートレートカスタマイズ
- Authors: Junha Hyung, Jaeyo Shin, and Jaegul Choo
- Abstract要約: MagiCaptureは、高解像度のポートレート画像を生成するために、主題とスタイルの概念を統合するパーソナライズ方法である。
本稿では,この弱教師付き学習環境内での頑健な学習を支援する,補助的先行学習と組み合わせた注意再焦点損失について紹介する。
私たちのパイプラインには、非常に現実的なアウトプットの生成を保証するための、追加のプロセス後ステップも含まれています。
- 参考スコア(独自算出の注目度): 34.131515004434846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large-scale text-to-image models including Stable Diffusion are capable of
generating high-fidelity photorealistic portrait images. There is an active
research area dedicated to personalizing these models, aiming to synthesize
specific subjects or styles using provided sets of reference images. However,
despite the plausible results from these personalization methods, they tend to
produce images that often fall short of realism and are not yet on a
commercially viable level. This is particularly noticeable in portrait image
generation, where any unnatural artifact in human faces is easily discernible
due to our inherent human bias. To address this, we introduce MagiCapture, a
personalization method for integrating subject and style concepts to generate
high-resolution portrait images using just a few subject and style references.
For instance, given a handful of random selfies, our fine-tuned model can
generate high-quality portrait images in specific styles, such as passport or
profile photos. The main challenge with this task is the absence of ground
truth for the composed concepts, leading to a reduction in the quality of the
final output and an identity shift of the source subject. To address these
issues, we present a novel Attention Refocusing loss coupled with auxiliary
priors, both of which facilitate robust learning within this weakly supervised
learning setting. Our pipeline also includes additional post-processing steps
to ensure the creation of highly realistic outputs. MagiCapture outperforms
other baselines in both quantitative and qualitative evaluations and can also
be generalized to other non-human objects.
- Abstract(参考訳): 安定拡散を含む大規模テキスト対画像モデルは、高忠実度フォトリアリスティックなポートレート画像を生成することができる。
これらのモデルをパーソナライズする活動的な研究領域があり、提供された参照画像を用いて特定の主題やスタイルを合成することを目的としている。
しかし、こうしたパーソナライズ手法によるもっともらしい結果にもかかわらず、現実主義に欠け、まだ商業的に実現可能なレベルには達していないイメージをしばしば生成する傾向にある。
これは、人間の顔の不自然なアーチファクトが、人間固有の偏見のために容易に識別できるポートレート画像生成において特に顕著である。
そこで本研究では,被写体とスタイルの概念を統合し,数個の被写体とスタイルの参照を用いて高精細なポートレート画像を生成するパーソナライズ手法であるmagicaptureを提案する。
例えば、一握りのランダムなセルフィーがあれば、われわれの微調整されたモデルは、パスポートやプロフィール写真など、特定のスタイルで高品質なポートレート画像を生成することができる。
このタスクの主な課題は、構成された概念に対する基礎的真理の欠如であり、最終的な出力の品質の低下と、ソースの主題のアイデンティティシフトにつながる。
これらの課題に対処するために,この弱教師付き学習環境内での頑健な学習を促進する補助的事前学習と合わせて,新たな注意再焦点損失を提案する。
私たちのパイプラインには、非常に現実的なアウトプットを作成するための、追加の処理ステップも含まれています。
MagiCaptureは定量評価と定性評価の両方において他のベースラインよりも優れており、他の非人間オブジェクトにも一般化することができる。
関連論文リスト
- IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。
我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。
我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文 参考訳(メタデータ) (2025-01-28T18:59:03Z) - AnyStory: Towards Unified Single and Multiple Subject Personalization in Text-to-Image Generation [14.68987039472664]
我々は、パーソナライズされた主題生成のための統一的なアプローチであるAnyStoryを提案する。
AnyStoryは、単一の被写体だけでなく、複数の被写体に対する高忠実度パーソナライゼーションを実現し、被写体への忠実度を犠牲にしない。
論文 参考訳(メタデータ) (2025-01-16T12:28:39Z) - ArtiFade: Learning to Generate High-quality Subject from Blemished Images [10.112125529627157]
ArtiFadeは、事前トレーニングされたテキスト-画像モデルの微調整を利用して、アーティファクトを削除する。
ArtiFadeはまた、拡散モデルに固有のオリジナルの生成機能の保存も保証している。
論文 参考訳(メタデータ) (2024-09-05T17:57:59Z) - Exposure Bracketing Is All You Need For A High-Quality Image [50.822601495422916]
マルチ露光画像は、デノイング、デブロアリング、高ダイナミックレンジイメージング、超解像において相補的である。
本研究では,これらの課題を組み合わせ,高品質な画像を得るために露光ブラケット写真を活用することを提案する。
特に時間変調リカレントネットワーク(TMRNet)と自己教師あり適応手法を提案する。
論文 参考訳(メタデータ) (2024-01-01T14:14:35Z) - Learning Subject-Aware Cropping by Outpainting Professional Photos [69.0772948657867]
本稿では,高品質な主観的作物を生産する要因を,プロのストックイメージから学習するための弱教師付きアプローチを提案する。
私たちの洞察は、ストックイメージのライブラリと、最新のトレーニング済みのテキスト-画像拡散モデルを組み合わせることです。
我々は、収穫された無作為のトレーニングペアの大規模なデータセットを自動的に生成して、収穫モデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-19T11:57:54Z) - PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved
Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。
PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。
生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文 参考訳(メタデータ) (2023-12-11T13:03:29Z) - FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。
Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。
本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-05T11:02:45Z) - WebtoonMe: A Data-Centric Approach for Full-Body Portrait Stylization [5.2661965280415926]
プロダクションレベルのフルボディ・ポートレート・スタイリングシステムを構築するためのデータ中心のソリューションを提案する。
この2段階のスキームに基づいて,新しい高度なデータセット作成パラダイムを構築した。
実験の結果、パイプラインでは、付加的な損失やアーキテクチャの変更なしに高品質なポートレートスタイリングが達成できることがわかった。
論文 参考訳(メタデータ) (2022-10-19T07:09:03Z) - Bridging Composite and Real: Towards End-to-end Deep Image Matting [88.79857806542006]
画像マッチングにおける意味論と細部の役割について検討する。
本稿では,共有エンコーダと2つの分離デコーダを用いた新しいGlance and Focus Matting Network(GFM)を提案する。
総合的な実証研究により、GFMは最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2020-10-30T10:57:13Z) - Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。
本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文 参考訳(メタデータ) (2020-07-17T15:58:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。