論文の概要: Create Your World: Lifelong Text-to-Image Diffusion
- arxiv url: http://arxiv.org/abs/2309.04430v1
- Date: Fri, 8 Sep 2023 16:45:56 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-11 12:53:49.189862
- Title: Create Your World: Lifelong Text-to-Image Diffusion
- Title(参考訳): 世界を作る: 一生のテキストと画像の拡散
- Authors: Gan Sun, Wenqi Liang, Jiahua Dong, Jun Li, Zhengming Ding, Yang Cong
- Abstract要約: 本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
- 参考スコア(独自算出の注目度): 75.14353789007902
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image generative models can produce diverse high-quality images of
concepts with a text prompt, which have demonstrated excellent ability in image
generation, image translation, etc. We in this work study the problem of
synthesizing instantiations of a use's own concepts in a never-ending manner,
i.e., create your world, where the new concepts from user are quickly learned
with a few examples. To achieve this goal, we propose a Lifelong text-to-image
Diffusion Model (L2DM), which intends to overcome knowledge "catastrophic
forgetting" for the past encountered concepts, and semantic "catastrophic
neglecting" for one or more concepts in the text prompt. In respect of
knowledge "catastrophic forgetting", our L2DM framework devises a task-aware
memory enhancement module and a elastic-concept distillation module, which
could respectively safeguard the knowledge of both prior concepts and each past
personalized concept. When generating images with a user text prompt, the
solution to semantic "catastrophic neglecting" is that a concept attention
artist module can alleviate the semantic neglecting from concept aspect, and an
orthogonal attention module can reduce the semantic binding from attribute
aspect. To the end, our model can generate more faithful image across a range
of continual text prompts in terms of both qualitative and quantitative
metrics, when comparing with the related state-of-the-art models. The code will
be released at https://wenqiliang.github.io/.
- Abstract(参考訳): テキスト・ツー・イメージ生成モデルは、テキスト・プロンプトを用いて、さまざまな高品質な概念の画像を生成することができる。
本研究は,ユーザからの新たな概念が短期間にいくつかの例で学習されるような,無限の終わりのない方法で,ユーザ自身の概念のインスタンス化を合成する問題を考察する。
この目的を達成するために,過去に遭遇した概念に対する知識「破滅的忘れ」と,テキストプロンプトにおける1つ以上の概念に対する意味的「破滅的無視」を克服する,生涯にわたるテキスト対画像拡散モデル(l2dm)を提案する。
我々のL2DMフレームワークは、知識「破滅的忘れ」に関して、従来の概念と過去のパーソナライズされた概念の両方の知識を保護できるタスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
ユーザテキストプロンプトで画像を生成する場合、意味的「破滅的無視」の解決策は、概念的注意アーティストモジュールが概念的側面から意味的無視を緩和し、直交的注意モジュールが属性的側面から意味的結合を低減できることである。
最後に、本モデルは、関連する最先端モデルと比較する場合、質的および定量的な指標の観点で、連続的なテキストプロンプトの範囲をまたいでより忠実な画像を生成することができる。
コードはhttps://wenqiliang.github.io/でリリースされる。
関連論文リスト
- Visual Concept-driven Image Generation with Text-to-Image Diffusion
Model [69.89451490936652]
テキスト・ツー・イメージ(TTI)モデルでは、複雑で想像力のあるシーンの高解像度画像を生成するという印象的な結果が示されている。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Lego: Learning to Disentangle and Invert Concepts Beyond Object
Appearance in Text-to-Image Diffusion Models [66.43013001061477]
いくつかのサンプル画像から対象の絡み合った概念を逆転させる手法であるLegoを導入する。
レゴは、シンプルだが効果的な対象分離ステップを使用して、関連する主題から概念を分離する。
徹底的なユーザスタディでは、レゴ生成の概念がベースラインと比較して70%以上好まれました。
論文 参考訳(メタデータ) (2023-11-23T07:33:38Z) - Hypernymy Understanding Evaluation of Text-to-Image Models via WordNet
Hierarchy [12.82992353036576]
我々は、textithypernymy$や単語間の"is-a"関係を理解するために、人気のあるテキスト・画像モデルの有用性を測定する。
私たちのメトリクスが、一般的なテキスト・ツー・イメージモデルの個々の長所と短所をよりよく理解する上で、どのように役立つかを示します。
論文 参考訳(メタデータ) (2023-10-13T16:53:25Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - Ablating Concepts in Text-to-Image Diffusion Models [57.9371041022838]
大規模テキスト・画像拡散モデルでは、強力な構成能力を持つ高忠実度画像を生成することができる。
これらのモデルは典型的には膨大な量のインターネットデータに基づいて訓練されており、しばしば著作権のある資料、ライセンスされた画像、個人写真を含んでいる。
本稿では,事前訓練されたモデルにおいて,目標概念の生成を防止し,効率的に概念を宣言する手法を提案する。
論文 参考訳(メタデータ) (2023-03-23T17:59:42Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。