論文の概要: Lego: Learning to Disentangle and Invert Concepts Beyond Object
Appearance in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.13833v1
- Date: Thu, 23 Nov 2023 07:33:38 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-28 00:34:45.485218
- Title: Lego: Learning to Disentangle and Invert Concepts Beyond Object
Appearance in Text-to-Image Diffusion Models
- Title(参考訳): Lego: テキストと画像の拡散モデルにおいて、オブジェクトの出現以上の概念を分離し、逆転させる学習
- Authors: Saman Motamed and Danda Pani Paudel and Luc Van Gool
- Abstract要約: いくつかのサンプル画像から対象の絡み合った概念を逆転させる手法であるLegoを導入する。
レゴは、シンプルだが効果的な対象分離ステップを使用して、関連する主題から概念を分離する。
徹底的なユーザスタディでは、レゴ生成の概念がベースラインと比較して70%以上好まれました。
- 参考スコア(独自算出の注目度): 66.43013001061477
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion models have revolutionized generative content creation and
text-to-image (T2I) diffusion models in particular have increased the creative
freedom of users by allowing scene synthesis using natural language. T2I models
excel at synthesizing concepts such as nouns, appearances, and styles. To
enable customized content creation based on a few example images of a concept,
methods such as Textual Inversion and DreamBooth invert the desired concept and
enable synthesizing it in new scenes. However, inverting more general concepts
that go beyond object appearance and style (adjectives and verbs) through
natural language, remains a challenge. Two key characteristics of these
concepts contribute to the limitations of current inversion methods. 1)
Adjectives and verbs are entangled with nouns (subject) and can hinder
appearance-based inversion methods, where the subject appearance leaks into the
concept embedding and 2) describing such concepts often extends beyond single
word embeddings (being frozen in ice, walking on a tightrope, etc.) that
current methods do not handle.
In this study, we introduce Lego, a textual inversion method designed to
invert subject entangled concepts from a few example images. Lego disentangles
concepts from their associated subjects using a simple yet effective Subject
Separation step and employs a Context Loss that guides the inversion of
single/multi-embedding concepts. In a thorough user study, Lego-generated
concepts were preferred over 70% of the time when compared to the baseline.
Additionally, visual question answering using a large language model suggested
Lego-generated concepts are better aligned with the text description of the
concept.
- Abstract(参考訳): 拡散モデルは生成コンテンツの作成に革命をもたらし、特にテキスト・ツー・イメージ(t2i)拡散モデルは自然言語を用いたシーン合成を可能にし、ユーザの創造的自由度を高めた。
T2Iモデルは名詞、外観、スタイルといった概念の合成に優れている。
所望のコンセプトを倒してテキスト反転やドリームブースなどの手法を用いて、コンセプトの少数の例画像に基づいてカスタマイズされたコンテンツ作成を可能とし、新たなシーンで合成できるようにする。
しかし、オブジェクトの外観やスタイル(形容詞や動詞)を自然言語で超越した、より一般的な概念を逆転することは、依然として課題である。
これらの概念の2つの重要な特徴は、現在の反転法の限界に寄与する。
1)形容詞と動詞は名詞(形容詞)と絡み合っており,概念埋め込みに主語出現が漏れる出現に基づく反転法を阻害しうる。
2) 従来の手法では扱えない単一の単語の埋め込み(氷で凍ったり、綱渡りなど)を超えて、そのような概念を記述することも多い。
そこで本研究では,いくつかの例から対象の絡み合った概念を逆転するテキスト変換手法であるLegoを紹介する。
legoは、概念を、単純かつ効果的な主題分離ステップを使って、関連する主題から切り離し、単一/マルチエンベディングの概念の反転を導くコンテキストロスを採用する。
徹底的なユーザスタディでは、レゴ生成の概念がベースラインと比較して70%以上好まれました。
さらに、大きな言語モデルを用いた視覚的な質問応答では、レゴ生成の概念は、概念のテキスト記述と整合性が高いことが示唆されている。
関連論文リスト
- What do Deck Chairs and Sun Hats Have in Common? Uncovering Shared
Properties in Large Concept Vocabularies [33.879307754303746]
概念は多くのアプリケーションにおいて中心的な役割を果たす。
これまでの研究は、言語モデルから非文脈化概念の埋め込みを蒸留することに重点を置いてきた。
我々は,潜在的に大きな概念語彙から,他の概念と共通する概念を識別する戦略を提案する。
そして、それらが他の概念と共有する性質の観点で概念を表現する。
論文 参考訳(メタデータ) (2023-10-23T10:53:25Z) - Implicit Concept Removal of Diffusion Models [92.55152501707995]
テキスト・ツー・イメージ(T2I)拡散モデルはしばしば、透かしや安全でない画像のような望ましくない概念を不注意に生成する。
幾何学駆動制御に基づく新しい概念除去手法であるGeom-Erasingを提案する。
論文 参考訳(メタデータ) (2023-10-09T17:13:10Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。