Fugu-MT 論文翻訳(概要): Imagine yourself: Tuning-Free Personalized Image Generation

論文の概要: Imagine yourself: Tuning-Free Personalized Image Generation

arxiv url: http://arxiv.org/abs/2409.13346v1
Date: Fri, 20 Sep 2024 09:21:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-07 07:40:00.665097
Title: Imagine yourself: Tuning-Free Personalized Image Generation
Title（参考訳）: チューニング不要のパーソナライズド画像生成
Authors: Zecheng He, Bo Sun, Felix Juefei-Xu, Haoyu Ma, Ankit Ramchandani, Vincent Cheung, Siddharth Shah, Anmol Kalia, Harihar Subramanyam, Alireza Zareian, Li Chen, Ankit Jain, Ning Zhang, Peizhao Zhang, Roshan Sumbaly, Peter Vajda, Animesh Sinha,
Abstract要約: 私たちは、パーソナライズされた画像生成用に設計された最先端のモデルであるImagine yourselfを紹介します。チューニング不要のモデルとして機能し、個別に調整することなく、すべてのユーザが共有フレームワークを活用できる。我々の研究は、Imagine自身が最先端のパーソナライズモデルを超え、アイデンティティ保存、視覚的品質、テキストアライメントにおいて優れた能力を示すことを示した。
参考スコア（独自算出の注目度）: 39.63411174712078
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Diffusion models have demonstrated remarkable efficacy across various image-to-image tasks. In this research, we introduce Imagine yourself, a state-of-the-art model designed for personalized image generation. Unlike conventional tuning-based personalization techniques, Imagine yourself operates as a tuning-free model, enabling all users to leverage a shared framework without individualized adjustments. Moreover, previous work met challenges balancing identity preservation, following complex prompts and preserving good visual quality, resulting in models having strong copy-paste effect of the reference images. Thus, they can hardly generate images following prompts that require significant changes to the reference image, \eg, changing facial expression, head and body poses, and the diversity of the generated images is low. To address these limitations, our proposed method introduces 1) a new synthetic paired data generation mechanism to encourage image diversity, 2) a fully parallel attention architecture with three text encoders and a fully trainable vision encoder to improve the text faithfulness, and 3) a novel coarse-to-fine multi-stage finetuning methodology that gradually pushes the boundary of visual quality. Our study demonstrates that Imagine yourself surpasses the state-of-the-art personalization model, exhibiting superior capabilities in identity preservation, visual quality, and text alignment. This model establishes a robust foundation for various personalization applications. Human evaluation results validate the model's SOTA superiority across all aspects (identity preservation, text faithfulness, and visual appeal) compared to the previous personalization models.
Abstract（参考訳）: 拡散モデルは様々な画像と画像のタスクにおいて顕著な効果を示した。本研究では,画像のパーソナライズを目的とした最先端モデルであるImagine yourselfを紹介する。従来のチューニングベースのパーソナライズ手法とは異なり、Imagine自身はチューニング不要のモデルとして機能し、すべてのユーザが個別に調整することなく共有フレームワークを利用することができる。さらに、従来の研究は、複雑なプロンプトに従って視覚的品質を保ちながら、アイデンティティ保存のバランスをとるという課題に遭遇し、結果として参照画像のコピー・ペースト効果が強いモデルとなった。したがって、参照画像、 \eg、表情の変化、頭と体のポーズ、生成した画像の多様性を著しく変更する必要のあるプロンプトに従って画像を生成することは困難である。これらの制限に対処するために,提案手法を紹介する。 1)画像の多様性を促進するための新しい合成ペアデータ生成機構 2)3つのテキストエンコーダと、テキスト忠実性を改善するための完全に訓練可能なビジョンエンコーダを備えた完全に平行なアテンションアーキテクチャ 3) 視覚的品質の境界を徐々に推し進める, 粗大な多段階ファインタニング手法を提案する。我々の研究は、Imagine自身が最先端のパーソナライズモデルを超え、アイデンティティ保存、視覚的品質、テキストアライメントにおいて優れた能力を示すことを示した。このモデルは、様々なパーソナライズアプリケーションのための堅牢な基盤を確立する。人間の評価結果は、過去のパーソナライゼーションモデルと比較して、モデルのSOTA優越性(アイデンティティ保存、テキスト忠実性、視覚的魅力)を全側面にわたって評価する。

関連論文リスト

Personalized Text-to-Image Generation with Auto-Regressive Models [17.294962891093373]
本稿では、パーソナライズされた画像合成のための自己回帰モデルの最適化の可能性について検討する。テキスト埋め込みの最適化と変圧器層の微調整を組み合わせた2段階のトレーニング戦略を提案する。
論文参考訳（メタデータ） (2025-04-17T17:58:26Z)
Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文参考訳（メタデータ） (2025-02-18T17:34:04Z)
Illustrious: an Open Advanced Illustration Model [7.428509329724737]
我々は,高解像度,ダイナミックカラーレンジ画像,高復元性を実現するために,Illustriousと呼ばれるテキスト・ツー・イメージ画像生成モデルを開発した。まず、バッチサイズとドロップアウト制御の重要性を探求し、制御可能なトークンベースの概念アクティベーションの学習を高速化する。第2に、画像のトレーニング精度を高め、文字解剖の正確な描写をはるかに高解像度にし、適切な方法で20MP以上の生成能力を拡張した。
論文参考訳（メタデータ） (2024-09-30T04:59:12Z)
JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文参考訳（メタデータ） (2024-07-08T17:59:02Z)
PortraitBooth: A Versatile Portrait Model for Fast Identity-preserved Personalization [92.90392834835751]
PortraitBoothは高効率、堅牢なID保存、表現編集可能な画像生成のために設計されている。 PortraitBoothは計算オーバーヘッドを排除し、アイデンティティの歪みを軽減する。生成した画像の多様な表情に対する感情認識のクロスアテンション制御が組み込まれている。
論文参考訳（メタデータ） (2023-12-11T13:03:29Z)
FaceStudio: Put Your Face Everywhere in Seconds [23.381791316305332]
アイデンティティを保存する画像合成は、パーソナライズされたスタイリスティックなタッチを加えながら、被験者のアイデンティティを維持することを目指している。 Textual InversionやDreamBoothといった従来の手法は、カスタムイメージ作成に力を入れている。本研究は,人間の画像に焦点をあてたアイデンティティ保存合成への新たなアプローチを提案する。
論文参考訳（メタデータ） (2023-12-05T11:02:45Z)
PhotoVerse: Tuning-Free Image Customization with Text-to-Image Diffusion Models [19.519789922033034]
PhotoVerseは、テキストドメインと画像ドメインの両方にデュアルブランチ条件設定機構を組み込んだ革新的な方法論である。 1つのトレーニングフェーズの後、我々の手法は数秒で高品質な画像を生成することができる。
論文参考訳（メタデータ） (2023-09-11T19:59:43Z)
DreamIdentity: Improved Editability for Efficient Face-identity Preserved Image Generation [69.16517915592063]
人間の顔の正確な表現を学習するための新しい顔識別エンコーダを提案する。また、モデルの編集可能性を高めるために、自己拡張編集可能性学習を提案する。我々の手法は、異なるシーン下でより高速にアイデンティティ保存された画像を生成することができる。
論文参考訳（メタデータ） (2023-07-01T11:01:17Z)
DreamBooth: Fine Tuning Text-to-Image Diffusion Models for Subject-Driven Generation [26.748667878221568]
テキスト・ツー・イメージ・モデルの「個人化」のための新しいアプローチを提案する。トレーニング済みのテキスト・ツー・イメージモデルを微調整して、ユニークな識別子を特定の主題にバインドする。次に、ユニークな識別子を使用して、異なるシーンでコンテキスト化された被写体の完全なフォトリアリスティック・ノーベル画像を合成することができる。
論文参考訳（メタデータ） (2022-08-25T17:45:49Z)
Improving Generation and Evaluation of Visual Stories via Semantic Consistency [72.00815192668193]
一連の自然言語キャプションが与えられた場合、エージェントはキャプションに対応する一連の画像を生成する必要がある。それまでの作業では、このタスクで合成テキスト・画像モデルより優れた繰り返し生成モデルを導入してきた。従来のモデリング手法には、デュアルラーニングフレームワークの追加など、いくつかの改善点を提示する。
論文参考訳（メタデータ） (2021-05-20T20:42:42Z)
Generating Person Images with Appearance-aware Pose Stylizer [66.44220388377596]
本稿では,人物のポーズや外見に基づいてリアルな人物画像を生成する,新しいエンドツーエンドフレームワークを提案する。本フレームワークのコアとなるのは、ターゲットポーズと条件付き人物の外観を段階的に結合して人体画像を生成する、APS(Appearance-aware Pose Stylizer)と呼ばれる新しいジェネレータである。
論文参考訳（メタデータ） (2020-07-17T15:58:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。