論文の概要: Create Your World: Lifelong Text-to-Image Diffusion
- arxiv url: http://arxiv.org/abs/2309.04430v1
- Date: Fri, 8 Sep 2023 16:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 12:53:49.189862
- Title: Create Your World: Lifelong Text-to-Image Diffusion
- Title(参考訳): 世界を作る: 一生のテキストと画像の拡散
- Authors: Gan Sun, Wenqi Liang, Jiahua Dong, Jun Li, Zhengming Ding, Yang Cong
- Abstract要約: 本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
- 参考スコア(独自算出の注目度): 75.14353789007902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generative models can produce diverse high-quality images of
concepts with a text prompt, which have demonstrated excellent ability in image
generation, image translation, etc. We in this work study the problem of
synthesizing instantiations of a use's own concepts in a never-ending manner,
i.e., create your world, where the new concepts from user are quickly learned
with a few examples. To achieve this goal, we propose a Lifelong text-to-image
Diffusion Model (L2DM), which intends to overcome knowledge "catastrophic
forgetting" for the past encountered concepts, and semantic "catastrophic
neglecting" for one or more concepts in the text prompt. In respect of
knowledge "catastrophic forgetting", our L2DM framework devises a task-aware
memory enhancement module and a elastic-concept distillation module, which
could respectively safeguard the knowledge of both prior concepts and each past
personalized concept. When generating images with a user text prompt, the
solution to semantic "catastrophic neglecting" is that a concept attention
artist module can alleviate the semantic neglecting from concept aspect, and an
orthogonal attention module can reduce the semantic binding from attribute
aspect. To the end, our model can generate more faithful image across a range
of continual text prompts in terms of both qualitative and quantitative
metrics, when comparing with the related state-of-the-art models. The code will
be released at https://wenqiliang.github.io/.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルは、テキスト・プロンプトを用いて、さまざまな高品質な概念の画像を生成することができる。
本研究は,ユーザからの新たな概念が短期間にいくつかの例で学習されるような,無限の終わりのない方法で,ユーザ自身の概念のインスタンス化を合成する問題を考察する。
この目的を達成するために,過去に遭遇した概念に対する知識「破滅的忘れ」と,テキストプロンプトにおける1つ以上の概念に対する意味的「破滅的無視」を克服する,生涯にわたるテキスト対画像拡散モデル(l2dm)を提案する。
我々のL2DMフレームワークは、知識「破滅的忘れ」に関して、従来の概念と過去のパーソナライズされた概念の両方の知識を保護できるタスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
ユーザテキストプロンプトで画像を生成する場合、意味的「破滅的無視」の解決策は、概念的注意アーティストモジュールが概念的側面から意味的無視を緩和し、直交的注意モジュールが属性的側面から意味的結合を低減できることである。
最後に、本モデルは、関連する最先端モデルと比較する場合、質的および定量的な指標の観点で、連続的なテキストプロンプトの範囲をまたいでより忠実な画像を生成することができる。
コードはhttps://wenqiliang.github.io/でリリースされる。
関連論文リスト
- Scaling Concept With Text-Guided Diffusion Models [53.80799139331966]
概念を置き換える代わりに、概念自体を強化するか、あるいは抑圧できるだろうか?
ScalingConceptは、分解された概念を、新しい要素を導入することなく、実際の入力でスケールアップまたはスケールダウンする、シンプルで効果的な方法である。
さらに重要なのは、ScalingConceptは画像とオーディオドメインにまたがる様々な新しいゼロショットアプリケーションを可能にすることだ。
論文 参考訳(メタデータ) (2024-10-31T17:09:55Z) - How to Continually Adapt Text-to-Image Diffusion Models for Flexible Customization? [91.49559116493414]
本稿では,CIDM(Concept-Incremental Text-to-image Diffusion Model)を提案する。
破滅的な忘れと概念の無視を解決し、新しいカスタマイズタスクを概念的な方法で学習する。
実験により、CIDMが既存のカスタム拡散モデルを上回ることが確認された。
論文 参考訳(メタデータ) (2024-10-23T06:47:29Z) - Erasing Concepts from Text-to-Image Diffusion Models with Few-shot Unlearning [0.0]
本稿では,数発のアンラーニングを用いてテキストエンコーダを更新する新しい概念消去手法を提案する。
提案手法は10秒以内に概念を消去し,概念の消去をこれまで以上に容易に行えるようにする。
論文 参考訳(メタデータ) (2024-05-12T14:01:05Z) - Attention Calibration for Disentangled Text-to-Image Personalization [12.339742346826403]
本稿では,T2Iモデルの概念レベル理解を改善するための注意校正機構を提案する。
本手法は, 定性評価と定量的評価の両方において, 現状よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-03-27T13:31:39Z) - An Image is Worth Multiple Words: Discovering Object Level Concepts using Multi-Concept Prompt Learning [8.985668637331335]
テクスチュラル・インバージョンは、画像のスタイルと外観を表現するために、新しい「単語」を埋め込む特異テキストを学習する。
我々は,複数の未知の単語を1つの文と画像のペアから同時に学習する,MCPL(Multi-Concept Prompt Learning)を導入する。
当社のアプローチでは,テキスト埋め込みのみから学習することを重視しており,ストレージスペースの10%未満を他と比較して使用しています。
論文 参考訳(メタデータ) (2023-10-18T19:18:19Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。