論文の概要: Personalized Text-to-Image Generation with Auto-Regressive Models
- arxiv url: http://arxiv.org/abs/2504.13162v1
- Date: Thu, 17 Apr 2025 17:58:26 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-25 17:00:04.301142
- Title: Personalized Text-to-Image Generation with Auto-Regressive Models
- Title(参考訳): 自己回帰モデルを用いたパーソナライズされたテキスト・ツー・イメージ生成
- Authors: Kaiyue Sun, Xian Liu, Yao Teng, Xihui Liu,
- Abstract要約: 本稿では、パーソナライズされた画像合成のための自己回帰モデルの最適化の可能性について検討する。
テキスト埋め込みの最適化と変圧器層の微調整を組み合わせた2段階のトレーニング戦略を提案する。
- 参考スコア(独自算出の注目度): 17.294962891093373
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Personalized image synthesis has emerged as a pivotal application in text-to-image generation, enabling the creation of images featuring specific subjects in diverse contexts. While diffusion models have dominated this domain, auto-regressive models, with their unified architecture for text and image modeling, remain underexplored for personalized image generation. This paper investigates the potential of optimizing auto-regressive models for personalized image synthesis, leveraging their inherent multimodal capabilities to perform this task. We propose a two-stage training strategy that combines optimization of text embeddings and fine-tuning of transformer layers. Our experiments on the auto-regressive model demonstrate that this method achieves comparable subject fidelity and prompt following to the leading diffusion-based personalization methods. The results highlight the effectiveness of auto-regressive models in personalized image generation, offering a new direction for future research in this area.
- Abstract(参考訳): パーソナライズされた画像合成は、テキスト・ツー・イメージ生成において重要な応用として現れており、様々な文脈で特定の対象を特徴付ける画像の作成を可能にしている。
拡散モデルは、この領域を支配してきたが、テキストと画像モデリングのための統一アーキテクチャを備えた自動回帰モデルは、パーソナライズされた画像生成のために未探索のままである。
本稿では,自己回帰モデルによる画像のパーソナライズを最適化する可能性について検討する。
テキスト埋め込みの最適化と変圧器層の微調整を組み合わせた2段階のトレーニング戦略を提案する。
自己回帰モデルを用いた実験により,本手法は主観的忠実度を同等に達成し,主要な拡散に基づくパーソナライズ手法に従うことを実証した。
この結果は、パーソナライズされた画像生成における自己回帰モデルの有効性を強調し、この領域における将来の研究の新たな方向性を提供する。
関連論文リスト
- Personalized Image Generation with Deep Generative Models: A Decade Survey [51.26287478042516]
本稿では、様々な生成モデルにまたがって、一般化されたパーソナライズされた画像生成についてレビューする。
まず、異なる生成モデル間でパーソナライズプロセスを標準化する統合フレームワークを定義する。
次に、各生成モデルにおけるパーソナライズ手法の詳細な分析を行い、そのユニークな貢献と革新を強調します。
論文 参考訳(メタデータ) (2025-02-18T17:34:04Z) - Augmented Conditioning Is Enough For Effective Training Image Generation [11.60839452103417]
実画像の生成プロセスの条件付けとテキストのプロンプトにより、下流トレーニングに有効な合成データセットとして機能する世代を生成することが判明した。
我々は,5つの確立された長尾画像と少数ショット画像の分類ベンチマークにおいて,拡張条件を検証した。
論文 参考訳(メタデータ) (2025-02-06T19:57:33Z) - High-Resolution Image Synthesis via Next-Token Prediction [19.97037318862443]
連続トークンに基づく自己回帰モデルである textbfD-JEPA$cdot$T2I を導入し、任意の解像度で高品質なフォトリアリスティック画像を最大4Kで生成する。
次世代の予測により,最先端の高精細画像合成を実現する。
論文 参考訳(メタデータ) (2024-11-22T09:08:58Z) - Imagine yourself: Tuning-Free Personalized Image Generation [39.63411174712078]
私たちは、パーソナライズされた画像生成用に設計された最先端のモデルであるImagine yourselfを紹介します。
チューニング不要のモデルとして機能し、個別に調整することなく、すべてのユーザが共有フレームワークを活用できる。
我々の研究は、Imagine自身が最先端のパーソナライズモデルを超え、アイデンティティ保存、視覚的品質、テキストアライメントにおいて優れた能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-20T09:21:49Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - An Improved Method for Personalizing Diffusion Models [23.20529652769131]
拡散モデルは印象的な画像生成能力を示している。
テキストインバージョンやドリームブートのようなパーソナライズされたアプローチは、特定の画像を用いたモデルのパーソナライゼーションを強化する。
提案手法は,新たな情報統合におけるモデルの本来の知識を維持することを目的としている。
論文 参考訳(メタデータ) (2024-07-07T09:52:04Z) - YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - RenAIssance: A Survey into AI Text-to-Image Generation in the Era of
Large Model [93.8067369210696]
テキスト・ツー・イメージ生成(テキスト・トゥ・イメージ・ジェネレーション、英: Text-to-image Generation、TTI)とは、テキスト入力を処理し、テキスト記述に基づいて高忠実度画像を生成するモデルである。
拡散モデル (diffusion model) は、繰り返しステップによるノイズの体系的導入を通じて画像の生成に使用される顕著な生成モデルである。
大規模モデルの時代、モデルサイズを拡大し、大規模言語モデルとの統合により、TTIモデルの性能がさらに向上した。
論文 参考訳(メタデータ) (2023-09-02T03:27:20Z) - Generate Anything Anywhere in Any Scene [25.75076439397536]
パーソナライズされたオブジェクト生成のための制御可能なテキスト・画像拡散モデルを提案する。
本手法は,芸術,エンターテイメント,広告デザインなど,様々な応用の可能性を示すものである。
論文 参考訳(メタデータ) (2023-06-29T17:55:14Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。