論文の概要: Zero-Shot Personalization of Objects via Textual Inversion
- arxiv url: http://arxiv.org/abs/2603.23010v1
- Date: Tue, 24 Mar 2026 09:54:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-25 19:53:37.417578
- Title: Zero-Shot Personalization of Objects via Textual Inversion
- Title(参考訳): テキストインバージョンによる物体のゼロショットパーソナライズ
- Authors: Aniket Roy, Maitreya Suin, Rama Chellappa,
- Abstract要約: 本稿では、学習ネットワークを用いて、オブジェクト固有のテキスト埋め込みを予測する新しいフレームワークを提案する。
この設計により、1つのフォワードパスで広範囲のオブジェクトを高速でゼロショットでパーソナライズすることができる。
我々の知る限り、この研究は拡散モデルにおけるそのような汎用的、トレーニング不要なパーソナライゼーションを達成するための最初の試みである。
- 参考スコア(独自算出の注目度): 36.82648022347006
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in text-to-image diffusion models have substantially improved the quality of image customization, enabling the synthesis of highly realistic images. Despite this progress, achieving fast and efficient personalization remains a key challenge, particularly for real-world applications. Existing approaches primarily accelerate customization for human subjects by injecting identity-specific embeddings into diffusion models, but these strategies do not generalize well to arbitrary object categories, limiting their applicability. To address this limitation, we propose a novel framework that employs a learned network to predict object-specific textual inversion embeddings, which are subsequently integrated into the UNet timesteps of a diffusion model for text-conditional customization. This design enables rapid, zero-shot personalization of a wide range of objects in a single forward pass, offering both flexibility and scalability. Extensive experiments across multiple tasks and settings demonstrate the effectiveness of our approach, highlighting its potential to support fast, versatile, and inclusive image customization. To the best of our knowledge, this work represents the first attempt to achieve such general-purpose, training-free personalization within diffusion models, paving the way for future research in personalized image generation.
- Abstract(参考訳): テキストと画像の拡散モデルの最近の進歩は、画像のカスタマイズの質を大幅に向上させ、高度にリアルな画像の合成を可能にした。
この進歩にもかかわらず、高速で効率的なパーソナライズを実現することは、特に現実世界のアプリケーションにとって重要な課題である。
既存のアプローチは主に、個人固有の埋め込みを拡散モデルに注入することで、人間のカスタマイズを加速するが、これらの戦略は任意の対象カテゴリにうまく一般化せず、適用性を制限する。
この制限に対処するために、学習ネットワークを用いてオブジェクト固有のテキストインバージョン埋め込みを予測し、その後、テキスト条件のカスタマイズのための拡散モデルのUNetタイムステップに統合する新しいフレームワークを提案する。
この設計により、幅広いオブジェクトを単一のフォワードパスで高速かつゼロショットでパーソナライズすることができ、柔軟性とスケーラビリティの両方を提供する。
複数のタスクや設定にわたる大規模な実験は、我々のアプローチの有効性を示し、高速で汎用的で包括的な画像カスタマイズをサポートする可能性を強調している。
我々の知る限り、この研究は、拡散モデルにおけるそのような汎用的、トレーニング不要なパーソナライゼーションを達成するための最初の試みであり、パーソナライズされた画像生成における将来の研究の道を開くものである。
関連論文リスト
- Energy-Guided Optimization for Personalized Image Editing with Pretrained Text-to-Image Diffusion Models [20.582222123619285]
本稿では,潜在空間における編集画像の最適化として,パーソナライズされたコンテンツ編集を定式化する学習自由フレームワークを提案する。
テキスト・エネルギ・ガイダンスを早期に活用し,対象クラスへの自然な移行を実現するための粗大な戦略を提案する。
ドメインギャップが大きくてもオブジェクト置換が優れている。
論文 参考訳(メタデータ) (2025-03-06T08:52:29Z) - Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。
提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文 参考訳(メタデータ) (2024-07-09T08:11:53Z) - JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。
既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。
本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文 参考訳(メタデータ) (2024-02-05T18:42:34Z) - Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image
Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。
既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。
個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文 参考訳(メタデータ) (2023-07-13T17:46:42Z) - Generate Anything Anywhere in Any Scene [25.75076439397536]
パーソナライズされたオブジェクト生成のための制御可能なテキスト・画像拡散モデルを提案する。
本手法は,芸術,エンターテイメント,広告デザインなど,様々な応用の可能性を示すものである。
論文 参考訳(メタデータ) (2023-06-29T17:55:14Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。
まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。
第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文 参考訳(メタデータ) (2023-02-23T18:46:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。