論文の概要: EasyPhoto: Your Smart AI Photo Generator
- arxiv url: http://arxiv.org/abs/2310.04672v1
- Date: Sat, 7 Oct 2023 03:16:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-12 16:47:09.153932
- Title: EasyPhoto: Your Smart AI Photo Generator
- Title(参考訳): スマートなAIフォトジェネレータ「EasyPhoto」
- Authors: Ziheng Wu, Jiaqi Xu, Xinyi Zou, Kunzhe Huang, Xing Shi, Jun Huang
- Abstract要約: 我々は、AIポートレートの生成を可能にするEasyPhotoと呼ばれる新しいWebUIプラグインを提案する。
5から20の関連画像を使用して、特定のユーザーIDのデジタルドッペルガンガーをトレーニングすることにより、微調整されたモデルは任意のテンプレートを使用してAI写真を生成することができる。
- 参考スコア(独自算出の注目度): 11.926387357705712
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Stable Diffusion web UI (SD-WebUI) is a comprehensive project that provides a
browser interface based on Gradio library for Stable Diffusion models. In this
paper, We propose a novel WebUI plugin called EasyPhoto, which enables the
generation of AI portraits. By training a digital doppelganger of a specific
user ID using 5 to 20 relevant images, the finetuned model (according to the
trained LoRA model) allows for the generation of AI photos using arbitrary
templates. Our current implementation supports the modification of multiple
persons and different photo styles. Furthermore, we allow users to generate
fantastic template image with the strong SDXL model, enhancing EasyPhoto's
capabilities to deliver more diverse and satisfactory results. The source code
for EasyPhoto is available at: https://github.com/aigc-apps/sd-webui-EasyPhoto.
We also support a webui-free version by using diffusers:
https://github.com/aigc-apps/EasyPhoto. We are continuously enhancing our
efforts to expand the EasyPhoto pipeline, making it suitable for any
identification (not limited to just the face), and we enthusiastically welcome
any intriguing ideas or suggestions.
- Abstract(参考訳): 安定拡散Web UI(SD-WebUI)は、安定拡散モデルのためのGradioライブラリに基づいたブラウザインターフェースを提供する包括的なプロジェクトである。
本稿では,AIポートレートの生成を可能にするEasyPhotoという新しいWebUIプラグインを提案する。
5から20の関連画像を使用して特定のユーザーIDのデジタルドッペルガンガーをトレーニングすることにより、微調整されたモデル(LoRAモデルによる)は任意のテンプレートを使用してAI写真を生成することができる。
今回の実装では,複数の人物の修正と異なる写真スタイルをサポートする。
さらに,強力なsdxlモデルによるテンプレート画像の生成を可能にし,より多様で満足のいく結果を提供するためのeasyphotoの能力を強化した。
EasyPhotoのソースコードは、https://github.com/aigc-apps/sd-webui-EasyPhotoで入手できる。
また、diffusersを使ってwebuiフリーバージョンもサポートしています。
easyphotoのパイプラインを拡大する努力を継続的に強化し、(顔だけに限らず)あらゆる識別に適しており、興味深いアイデアや提案を熱心に歓迎しています。
関連論文リスト
- Prompt Sliders for Fine-Grained Control, Editing and Erasing of Concepts in Diffusion Models [53.385754347812835]
概念スライダは、学習概念(属性/オブジェクト)によるきめ細かい画像制御と編集方法を導入した
このアプローチは、学習概念に使用されるローランドアダプタ(LoRA)のロードとアンロードにより、パラメータを追加し、推論時間を増加させる。
そこで本研究では,テキストエンコーダを共有するモデル間で一般化可能な,テキスト埋め込みによる概念学習のための簡単なテキストインバージョン手法を提案する。
論文 参考訳(メタデータ) (2024-09-25T01:02:30Z) - On AI-Inspired UI-Design [5.969881132928718]
アプリデザイナがモバイルアプリのより優れた、より多様な、創造的なUIを作成するのをサポートするために、AI(Artificial Intelligence)を使用する方法に関する3つの主要な補完的なアプローチについて議論する。
まず、デザイナーはGPTのようなLarge Language Model(LLM)に1つまたは複数のUIを直接生成、調整するよう促すことができる。
第2に、VLM(Vision-Language Model)により、デザイナは、アプリストアに公開されたアプリから、大規模なスクリーンショットデータセットを効率的に検索することができる。
第3に、ディフュージョンモデル(DM)は、インスピレーションのあるイメージとしてアプリUIを生成するように設計されている。
論文 参考訳(メタデータ) (2024-06-19T15:28:21Z) - Synthesizing Efficient Data with Diffusion Models for Person Re-Identification Pre-Training [51.87027943520492]
本稿では,既知の同一性に基づく多様な画像の効率向上と生成を行う新しいパラダイムDiffusion-ReIDを提案する。
提案したパラダイムに適合して,まず,5,183個のIDから777K以上の画像で構成された,大規模なRe-IDデータセットDiff-Personを新たに作成する。
論文 参考訳(メタデータ) (2024-06-10T06:26:03Z) - InstantID: Zero-shot Identity-Preserving Generation in Seconds [21.04236321562671]
我々はID埋め込みのための強力な拡散モデルに基づくソリューションであるInstantIDを紹介する。
我々のプラグイン・アンド・プレイ・モジュールは、1つの顔画像だけで様々なスタイルで画像のパーソナライズ処理を行う。
私たちの仕事はSD1.5やSDXLのような、トレーニング済みのテキストと画像の拡散モデルとシームレスに統合されます。
論文 参考訳(メタデータ) (2024-01-15T07:50:18Z) - Latent Space Editing in Transformer-Based Flow Matching [53.75073756305241]
Flow Matching with a transformer backboneはスケーラブルで高品質な生成モデリングの可能性を秘めている。
編集スペースである$u$-spaceを導入し、制御可能で、蓄積可能で、構成可能な方法で操作できる。
最後に,テキストプロンプトを用いた微粒でニュアンスな編集を実現するための,単純かつ強力な手法を提案する。
論文 参考訳(メタデータ) (2023-12-17T21:49:59Z) - PhotoMaker: Customizing Realistic Human Photos via Stacked ID Embedding [102.07914175196817]
PhotoMakerは、効率的なパーソナライズされたテキスト・ツー・イメージ生成方法である。
任意の数の入力ID画像をスタックID埋め込みに符号化し、ID情報を保存する。
論文 参考訳(メタデータ) (2023-12-07T17:32:29Z) - SnapFusion: Text-to-Image Diffusion Model on Mobile Devices within Two
Seconds [88.06788636008051]
テキストから画像への拡散モデルは、プロのアーティストや写真家の作品に匹敵する自然言語の記述から素晴らしい画像を作り出すことができる。
これらのモデルは大規模で、複雑なネットワークアーキテクチャと数十のデノベーションイテレーションを持ち、計算コストが高く、実行が遅い。
モバイル端末上でテキストから画像への拡散モデルの実行を2ドル以下でアンロックする汎用的なアプローチを提案する。
論文 参考訳(メタデータ) (2023-06-01T17:59:25Z) - GlueGen: Plug and Play Multi-modal Encoders for X-to-image Generation [143.81719619351335]
拡散過程に基づくテキスト・ツー・イメージ(T2I)モデルは,ユーザが提供するキャプションを用いた制御可能な画像生成において顕著な成功を収めた。
現在のテキストエンコーダとT2Iモデルのイメージデコーダの密結合により、置き換えやアップグレードが困難になる。
本稿では,新しいGlueNetモデルを適用したGlueGenを提案する。
論文 参考訳(メタデータ) (2023-03-17T15:37:07Z) - SEGA: Instructing Text-to-Image Models using Semantic Guidance [33.080261792998826]
拡散過程と相互作用し、意味的な方向に沿って柔軟に操る方法を示す。
SEGAは、分類器フリーガイダンスを使用して、任意の生成アーキテクチャに一般化する。
微妙で広範囲な編集、構成やスタイルの変更、芸術的概念全体の最適化を可能にしている。
論文 参考訳(メタデータ) (2023-01-28T16:43:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。