Fugu-MT 論文翻訳(概要): LCM-Lookahead for Encoder-based Text-to-Image Personalization

論文の概要: LCM-Lookahead for Encoder-based Text-to-Image Personalization

arxiv url: http://arxiv.org/abs/2404.03620v1
Date: Thu, 4 Apr 2024 17:43:06 GMT
ステータス: 翻訳完了
システム内更新日: 2024-04-05 13:52:38.992449
Title: LCM-Lookahead for Encoder-based Text-to-Image Personalization
Title（参考訳）: エンコーダを用いたテキスト-画像パーソナライズのためのLCM-Lookahead
Authors: Rinon Gal, Or Lichter, Elad Richardson, Or Patashnik, Amit H. Bermano, Gal Chechik, Daniel Cohen-Or,
Abstract要約: 我々は,テキスト・ツー・イメージ・モデルのパーソナライズを導くために,ショートカット・メカニズムを利用する可能性を探る。エンコーダをベースとしたパーソナライズ手法に焦点をあてて、ルックアヘッドのアイデンティティ損失を調整することで、より高いアイデンティティの忠実性を達成できることを実証する。
参考スコア（独自算出の注目度）: 82.56471486184252
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Recent advancements in diffusion models have introduced fast sampling methods that can effectively produce high-quality images in just one or a few denoising steps. Interestingly, when these are distilled from existing diffusion models, they often maintain alignment with the original model, retaining similar outputs for similar prompts and seeds. These properties present opportunities to leverage fast sampling methods as a shortcut-mechanism, using them to create a preview of denoised outputs through which we can backpropagate image-space losses. In this work, we explore the potential of using such shortcut-mechanisms to guide the personalization of text-to-image models to specific facial identities. We focus on encoder-based personalization approaches, and demonstrate that by tuning them with a lookahead identity loss, we can achieve higher identity fidelity, without sacrificing layout diversity or prompt alignment. We further explore the use of attention sharing mechanisms and consistent data generation for the task of personalization, and find that encoder training can benefit from both.
Abstract（参考訳）: 拡散モデルの最近の進歩は、高速サンプリング法を導入し、1つか数ステップで高品質な画像を効果的に生成することができる。興味深いことに、これらを既存の拡散モデルから蒸留すると、しばしば元のモデルと整合し、同様のプロンプトや種子の出力を保持する。これらの特性は、高速サンプリング手法をショートカット機構として活用し、画像空間損失をバックプロパゲート可能なデノライズアウトプットのプレビューを作成する機会を与える。本研究では、このようなショートカット機構を用いて、テキスト・ツー・イメージの個人化を特定の顔のアイデンティティに導く可能性について検討する。我々は,エンコーダに基づくパーソナライズアプローチに注目し,ルックアヘッドのアイデンティティ損失を調整することによって,レイアウトの多様性を犠牲にしたり,アライメントを早めることなく,より高いアイデンティティの忠実度を達成できることを実証した。さらに、パーソナライズ作業におけるアテンション共有機構と一貫性のあるデータ生成の利用について検討し、エンコーダのトレーニングが双方の恩恵を受けることを確かめる。

関連論文リスト

Enhancing Privacy-Utility Trade-offs to Mitigate Memorization in Diffusion Models [62.979954692036685]
PRSSを導入し, 拡散モデルにおけるクラス化自由誘導手法を改良し, 即時再編成とセマンティック・プロンプト・サーチを統合した。当社のアプローチは一貫してプライバシーとユーティリティのトレードオフを改善し、新たな最先端技術を確立します。
論文参考訳（メタデータ） (2025-04-25T02:51:23Z)
ID-Booth: Identity-consistent Face Generation with Diffusion Models [10.042492056152232]
我々はID-Boothと呼ばれる新しい生成拡散に基づくフレームワークを提案する。このフレームワークは、事前訓練された拡散モデルの合成能力を保ちながら、アイデンティティ一貫性のある画像生成を可能にする。本手法は、画像の多様性を向上しつつ、競合する手法よりもアイデンティティ間の一貫性とアイデンティティ間の分離性を向上する。
論文参考訳（メタデータ） (2025-04-10T02:20:18Z)
Forensic Self-Descriptions Are All You Need for Zero-Shot Detection, Open-Set Source Attribution, and Clustering of AI-generated Images [8.167678851224121]
従来の手法では、トレーニング中に既知のソースに特有の機能に依存するため、見えないジェネレータに一般化できない。本稿では,法医学的微細構造を明示的にモデル化する新しい手法を提案する。この自己記述により、合成画像のゼロショット検出、画像のオープンセットソース属性、および事前知識のないソースに基づくクラスタリングを行うことができる。
論文参考訳（メタデータ） (2025-03-26T21:34:37Z)
Foundation Cures Personalization: Recovering Facial Personalized Models' Prompt Consistency [33.35678923549471]
FreeCureは、基礎モデル自体から固有の知識を活用して、パーソナライゼーションモデルの迅速な一貫性を改善する、トレーニング不要のフレームワークである。パーソナライズモデルの出力における複数の属性を、新しいノイズブリーディング戦略と反転に基づくプロセスによって強化する。
論文参考訳（メタデータ） (2024-11-22T15:21:38Z)
LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation [17.169772329737913]
LocRef-Diffusionは、画像内の複数のインスタンスの外観と位置をカスタマイズできるチューニング不要のモデルである。インスタンス配置の精度を高めるために,インスタンス生成位置を制御するレイアウトネットを導入する。参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出する外観ネットを用いる。
論文参考訳（メタデータ） (2024-11-22T08:44:39Z)
Fusion is all you need: Face Fusion for Customized Identity-Preserving Image Synthesis [7.099258248662009]
テキスト・ツー・イメージ(T2I)モデルは人工知能の開発を著しく進歩させてきた。しかし、既存のT2Iベースの手法は、参照画像から個人を正確に再現するのに苦労することが多い。我々は、安定拡散から得られた事前学習されたUNetを利用して、対象の顔画像を直接生成プロセスに組み込む。
論文参考訳（メタデータ） (2024-09-27T19:31:04Z)
FreeCompose: Generic Zero-Shot Image Composition with Diffusion Prior [50.0535198082903]
我々は,複数の入力イメージを単一のコヒーレントなイメージに統合する,新しい画像合成手法を提案する。本稿では, 大規模事前学習拡散モデルに内在する強力な生成的前駆体を利用して, 汎用画像合成を実現する可能性を示す。
論文参考訳（メタデータ） (2024-07-06T03:35:43Z)
RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance [22.326405355520176]
RefDropを使えば、ユーザーは直接的かつ正確な方法で参照コンテキストの影響を制御できる。また,本手法は,複数の主題を一貫した生成など,より興味深い応用を可能にする。
論文参考訳（メタデータ） (2024-05-27T21:23:20Z)
Attribute-Aware Deep Hashing with Self-Consistency for Large-Scale Fine-Grained Image Retrieval [65.43522019468976]
本稿では属性認識ハッシュコードを生成するための自己整合性を持つ属性認識ハッシュネットワークを提案する。本研究では,高レベル属性固有ベクトルを教師なしで蒸留する再構成タスクのエンコーダ・デコーダ構造ネットワークを開発する。我々のモデルは,これらの属性ベクトルに特徴デコリレーション制約を設けて,それらの代表的能力を強化する。
論文参考訳（メタデータ） (2023-11-21T08:20:38Z)
Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文参考訳（メタデータ） (2023-07-13T17:46:42Z)
Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文参考訳（メタデータ） (2023-04-14T23:32:24Z)
Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文参考訳（メタデータ） (2022-06-30T18:31:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。