Fugu-MT 論文翻訳(概要): Key-Locked Rank One Editing for Text-to-Image Personalization

論文の概要: Key-Locked Rank One Editing for Text-to-Image Personalization

arxiv url: http://arxiv.org/abs/2305.01644v1
Date: Tue, 2 May 2023 17:56:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-03 13:20:00.346018
Title: Key-Locked Rank One Editing for Text-to-Image Personalization
Title（参考訳）: テキスト対画像パーソナライズのためのキーロックランク1編集
Authors: Yoad Tewel, Rinon Gal, Gal Chechik, Yuval Atzmon
Abstract要約: 本稿では,基礎となるT2Iモデルの動的ランク1更新による課題に対処するT2Iパーソナライズ手法であるPerfusionを提案する。 Perfusionは、新しい概念のクロスアテンションキーをそれらのスーパーオーディネートカテゴリに"ロックする"新しいメカニズムを導入することで、過度な適合を避ける。 Perfusionは質的・量的両面で強いベースラインを上回ります。
参考スコア（独自算出の注目度）: 29.95327093661035
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image models (T2I) offer a new level of flexibility by allowing users to guide the creative process through natural language. However, personalizing these models to align with user-provided visual concepts remains a challenging problem. The task of T2I personalization poses multiple hard challenges, such as maintaining high visual fidelity while allowing creative control, combining multiple personalized concepts in a single image, and keeping a small model size. We present Perfusion, a T2I personalization method that addresses these challenges using dynamic rank-1 updates to the underlying T2I model. Perfusion avoids overfitting by introducing a new mechanism that "locks" new concepts' cross-attention Keys to their superordinate category. Additionally, we develop a gated rank-1 approach that enables us to control the influence of a learned concept during inference time and to combine multiple concepts. This allows runtime-efficient balancing of visual-fidelity and textual-alignment with a single 100KB trained model, which is five orders of magnitude smaller than the current state of the art. Moreover, it can span different operating points across the Pareto front without additional training. Finally, we show that Perfusion outperforms strong baselines in both qualitative and quantitative terms. Importantly, key-locking leads to novel results compared to traditional approaches, allowing to portray personalized object interactions in unprecedented ways, even in one-shot settings.
Abstract（参考訳）: text-to-image models (t2i)は、ユーザーが自然言語で創造的なプロセスをガイドできる新しいレベルの柔軟性を提供する。しかし、これらのモデルをユーザが提供する視覚概念に合わせてパーソナライズすることは難しい問題である。 T2Iのパーソナライゼーションのタスクは、高い視覚的忠実さを維持しながら創造的な制御を可能にし、複数のパーソナライズされた概念を単一のイメージに組み合わせ、小さなモデルサイズを維持するなど、複数の困難を伴っている。本稿では,これらの課題に対処するT2Iパーソナライズ手法であるPerfusionを提案する。 Perfusionは、新しい概念のクロスアテンションキーをそれらのスーパーオーディネートカテゴリに"ロックする"新しいメカニズムを導入することで、オーバーフィッティングを避ける。さらに,推論時間における学習概念の影響を制御し,複数の概念を組み合わせることを可能とするゲートランク1アプローチを開発した。これにより、100KBのトレーニングモデルで視覚的忠実度とテキストアライメントのランタイム効率のバランスをとることができる。さらに、トレーニングを追加することなく、Paretoフロントのさまざまな操作ポイントにまたがることができる。最後に,Perfusionが質的,定量的両面で高いベースラインを達成していることを示す。重要なことに、キーロックは従来のアプローチと比較して新しい結果をもたらし、一発設定でも前例のない方法でパーソナライズされたオブジェクトインタラクションを表現できる。

関連論文リスト

Personalize Anything for Free with Diffusion Transformer [20.385520869825413]
最近のトレーニングフリーアプローチはアイデンティティの保存、適用性、拡散トランスフォーマ(DiT)との互換性に苦慮している既往のDiTの可能性を明らかにし,デノベーショントークンを参照対象のトークンに置き換えることで,ゼロショット対象の再構成を実現する。本報告では,DiTにおける画像のパーソナライズを実現するトレーニングフリーフレームワークである textbfPersonalize Anything を提案する。1)早期注入による被写体一貫性を強制し,後期正規化による柔軟性を高めるタイムステップ適応トークン置換,2) 構造多様性を高めるためのパッチ摂動戦略。
論文参考訳（メタデータ） (2025-03-16T17:51:16Z)
FlipConcept: Tuning-Free Multi-Concept Personalization for Text-to-Image Generation [26.585985828583304]
FlipConceptは、複数のパーソナライズされた概念をシームレスに単一のイメージに統合する新しいアプローチである。我々は,概念リークを最小限に抑えるために,ガイド付き外観注意,マスク誘導ノイズ混合,背景希釈を導入する。チューニングを必要とせず、本手法は、単一および複数のパーソナライズされた概念推論において、既存のモデルよりも優れている。
論文参考訳（メタデータ） (2025-02-21T04:37:18Z)
IC-Portrait: In-Context Matching for View-Consistent Personalized Portrait [51.18967854258571]
IC-Portraitは、パーソナライズされた肖像画生成のために個々のアイデンティティを正確にエンコードするように設計された新しいフレームワークである。我々の重要な洞察は、事前学習された拡散モデルは、文脈内密対応マッチングのための高速学習者であるということである。我々は,IC-Portraitが既存の最先端手法を定量的かつ質的に一貫的に上回っていることを示す。
論文参考訳（メタデータ） (2025-01-28T18:59:03Z)
MagicTailor: Component-Controllable Personalization in Text-to-Image Diffusion Models [51.1034358143232]
本稿では,テキスト・ツー・イメージ(T2I)モデルの境界を押し上げる新しいタスクであるコンポーネント・コントロール可能なパーソナライゼーションを提案する。これらの課題を克服するために、動的マスケード分解(DM-Deg)を活用して、望ましくない視覚的セマンティクスを動的に摂動させる革新的なフレームワークであるMagicTailorを設計する。
論文参考訳（メタデータ） (2024-10-17T09:22:53Z)
AttenCraft: Attention-guided Disentanglement of Multiple Concepts for Text-to-Image Customization [4.544788024283586]
AttenCraft(アテンクラフト)は、複数のコンセプトの絡み合わせのための注意誘導方式である。異なる概念からの特徴獲得の非同期性を緩和するために,一様サンプリングと再加重サンプリング方式を導入する。本手法は,画像アライメントの観点からベースラインモデルより優れており,テキストアライメントに適合して動作する。
論文参考訳（メタデータ） (2024-05-28T08:50:14Z)
MC$^2$: Multi-concept Guidance for Customized Multi-concept Generation [49.935634230341904]
MC$2$と呼ばれるマルチコンセプトカスタマイズのためのマルチコンセプトガイダンスを導入し、柔軟性と忠実さを改善した。 MC$2$は、推論時間最適化を通じてモデルアーキテクチャの要件を分離する。視覚とテキストのトークン間の注意重みを適応的に改善し、画像領域に関連した単語に集中するよう指示する。
論文参考訳（メタデータ） (2024-04-08T07:59:04Z)
Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文参考訳（メタデータ） (2024-03-27T13:31:39Z)
Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文参考訳（メタデータ） (2023-12-22T14:40:55Z)
PIA: Your Personalized Image Animator via Plug-and-Play Modules in Text-to-Image Models [14.657472801570284]
PIAは、条件画像との整合性、テキストによる動作制御性、および特定のチューニングなしで様々なパーソナライズされたT2Iモデルとの互換性に優れる。 PIAのキーコンポーネントは条件モジュールの導入であり、入力として条件フレームとフレーム間の親和性を利用する。
論文参考訳（メタデータ） (2023-12-21T15:51:12Z)
Domain-Agnostic Tuning-Encoder for Fast Personalization of Text-To-Image Models [59.094601993993535]
テキスト・ツー・イメージ(T2I)のパーソナライズにより、ユーザーは自然言語のプロンプトに自身の視覚的概念を組み合わせることができる。既存のエンコーダのほとんどは単一クラスドメインに限定されており、多様な概念を扱う能力を妨げる。個人化された概念に関する特別なデータセットや事前情報を必要としないドメインに依存しない手法を提案する。
論文参考訳（メタデータ） (2023-07-13T17:46:42Z)
Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。次に、新しい2段階のカスタマイズプロセスを示す。
論文参考訳（メタデータ） (2023-05-25T17:59:04Z)
Designing an Encoder for Fast Personalization of Text-to-Image Models [57.62449900121022]
テキスト・ツー・イメージ・パーソナライズのためのエンコーダに基づくドメインチューニング手法を提案する。まず、特定のドメインからターゲット概念の1つのイメージを入力として取り込むエンコーダです。第二に、追加概念を効果的に取り入れる方法を学ぶためのテキスト・ツー・イメージ・モデルのための正規化された重み付けオフセットのセット。
論文参考訳（メタデータ） (2023-02-23T18:46:41Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。