論文の概要: Lego: Learning to Disentangle and Invert Personalized Concepts Beyond Object Appearance in Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2311.13833v2
- Date: Fri, 27 Sep 2024 14:04:35 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-09 09:38:57.964571
- Title: Lego: Learning to Disentangle and Invert Personalized Concepts Beyond Object Appearance in Text-to-Image Diffusion Models
- Title(参考訳): Lego: テキストと画像の拡散モデルにおいて、オブジェクトの出現以上のパーソナライズされた概念を分離し、逆転させる学習
- Authors: Saman Motamed, Danda Pani Paudel, Luc Van Gool,
- Abstract要約: 形容詞と動詞は名詞で絡み合っている(目的語)
レゴは、シンプルだが効果的な対象分離ステップを使用して、関連する主題から概念を分離する。
レゴで作られたコンセプトは、ベースラインと比較して70%以上好まれていた。
- 参考スコア(独自算出の注目度): 60.80960965051388
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Text-to-Image (T2I) models excel at synthesizing concepts such as nouns, appearances, and styles. To enable customized content creation based on a few example images of a concept, methods such as Textual Inversion and DreamBooth invert the desired concept and enable synthesizing it in new scenes. However, inverting personalized concepts that go beyond object appearance and style (adjectives and verbs) through natural language remains a challenge. Two key characteristics of these concepts contribute to the limitations of current inversion methods. 1) Adjectives and verbs are entangled with nouns (subject) and can hinder appearance-based inversion methods, where the subject appearance leaks into the concept embedding, and 2) describing such concepts often extends beyond single word embeddings. In this study, we introduce Lego, a textual inversion method designed to invert subject-entangled concepts from a few example images. Lego disentangles concepts from their associated subjects using a simple yet effective Subject Separation step and employs a Context Loss that guides the inversion of single/multi-embedding concepts. In a thorough user study, Lego-generated concepts were preferred over 70% of the time when compared to the baseline in terms of authentically generating concepts according to a reference. Additionally, visual question answering using an LLM suggested Lego-generated concepts are better aligned with the text description of the concept.
- Abstract(参考訳): テキスト・トゥ・イメージ(T2I)モデルは名詞、外観、スタイルといった概念の合成に優れている。
コンセプトのいくつかの例の画像に基づいて、カスタマイズされたコンテンツ作成を可能にする。テクスチュアル・インバージョンやドリームブースのようなメソッドは、所望のコンセプトを反転させ、新しいシーンでそれを合成できるようにする。
しかし、オブジェクトの外観やスタイル(形容詞や動詞)を超えたパーソナライズされた概念を自然言語で反転させることは、依然として課題である。
これらの概念の2つの重要な特徴は、現在の反転法の限界に寄与する。
1)形容詞と動詞は名詞(目的語)で絡み合っており、主観的外見が埋もれ込むような外見に基づく逆転を妨げかねない。
2) このような概念を記述することは、しばしば単一の単語の埋め込みを超えて行われる。
本研究では,いくつかのサンプル画像から主観的絡み合いの概念を逆転させる手法であるLegoを紹介する。
レゴは、単純だが効果的な主題分離ステップを使用して、関連する主題から概念を分離し、単一/複数埋め込みの概念の逆転を導くコンテキストロスを採用する。
徹底的なユーザスタディでは、レゴが生成したコンセプトは、基準に従って正確な概念を生成するという点で、ベースラインと比較して70%以上好まれました。
さらに、LLMを使った視覚的質問応答では、レゴ生成の概念は、概念のテキスト記述と整合性が高いことが示唆された。
関連論文リスト
- OmniPrism: Learning Disentangled Visual Concept for Image Generation [57.21097864811521]
創造的な視覚概念の生成は、しばしば関連する結果を生み出すために参照イメージ内の特定の概念からインスピレーションを引き出す。
我々は,創造的画像生成のための視覚的概念分離手法であるOmniPrismを提案する。
提案手法は,自然言語で案内される不整合概念表現を学習し,これらの概念を組み込むために拡散モデルを訓練する。
論文 参考訳(メタデータ) (2024-12-16T18:59:52Z) - What do Deck Chairs and Sun Hats Have in Common? Uncovering Shared
Properties in Large Concept Vocabularies [33.879307754303746]
概念は多くのアプリケーションにおいて中心的な役割を果たす。
これまでの研究は、言語モデルから非文脈化概念の埋め込みを蒸留することに重点を置いてきた。
我々は,潜在的に大きな概念語彙から,他の概念と共通する概念を識別する戦略を提案する。
そして、それらが他の概念と共有する性質の観点で概念を表現する。
論文 参考訳(メタデータ) (2023-10-23T10:53:25Z) - Text-to-Image Generation for Abstract Concepts [76.32278151607763]
抽象概念のためのテキスト・画像生成フレームワーク(TIAC)を提案する。
抽象概念は曖昧さを避けるための詳細な定義で明確な意図に明確化されている。
LLM抽出フォームパターンセットから概念依存型フォームを検索する。
論文 参考訳(メタデータ) (2023-09-26T02:22:39Z) - Create Your World: Lifelong Text-to-Image Diffusion [75.14353789007902]
本稿では,過去の概念の「破滅的忘れ」を克服するために,ライフロングテキスト・画像拡散モデル(L2DM)を提案する。
我々のL2DMフレームワークは,知識の「破滅的忘れ」に関して,タスク対応メモリ拡張モジュールと弾性概念蒸留モジュールを考案している。
我々のモデルは、質的および定量的な指標の両方の観点から、連続的なテキストプロンプトの範囲にわたって、より忠実な画像を生成することができる。
論文 参考訳(メタデータ) (2023-09-08T16:45:56Z) - The Hidden Language of Diffusion Models [70.03691458189604]
本稿では,テキスト概念の内部表現を拡散モデルで解釈する新しい手法であるConceptorを提案する。
概念間の驚くべき視覚的つながりは、それらのテキスト意味論を超越している。
我々はまた、模範的、偏見、名高い芸術様式、あるいは複数の意味の同時融合に依存する概念も発見する。
論文 参考訳(メタデータ) (2023-06-01T17:57:08Z) - FALCON: Fast Visual Concept Learning by Integrating Images, Linguistic
descriptions, and Conceptual Relations [99.54048050189971]
自然に発生する複数のデータストリームによってガイドされる新しい視覚概念を素早く学習するフレームワークを提案する。
学習された概念は、未知の画像について推論することで質問に答えるなど、下流のアプリケーションをサポートする。
合成と実世界の両方のデータセットにおけるモデルの有効性を実証する。
論文 参考訳(メタデータ) (2022-03-30T19:45:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。