論文の概要: TokenVerse: Versatile Multi-concept Personalization in Token Modulation Space
- arxiv url: http://arxiv.org/abs/2501.12224v1
- Date: Tue, 21 Jan 2025 15:49:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:13.515558
- Title: TokenVerse: Versatile Multi-concept Personalization in Token Modulation Space
- Title(参考訳): TokenVerse: Token Modulation 空間におけるVersatile Multi-concept Personalization
- Authors: Daniel Garibi, Shahar Yadin, Roni Paiss, Omer Tov, Shiran Zada, Ariel Ephrat, Tomer Michaeli, Inbar Mosseri, Tali Dekel,
- Abstract要約: TokenVerseは、事前訓練されたテキスト-画像拡散モデルを活用するマルチコンセプトパーソナライズ手法である。
我々のフレームワークは、複雑な視覚要素と属性を1つの画像から切り離すことができる。
本研究は,DiTベースのテキスト・ツー・イメージ・モデルを用いて,注目と変調の両方を通じて,入力テキストが生成に影響を与える。
- 参考スコア(独自算出の注目度): 36.9351027463136
- License:
- Abstract: We present TokenVerse -- a method for multi-concept personalization, leveraging a pre-trained text-to-image diffusion model. Our framework can disentangle complex visual elements and attributes from as little as a single image, while enabling seamless plug-and-play generation of combinations of concepts extracted from multiple images. As opposed to existing works, TokenVerse can handle multiple images with multiple concepts each, and supports a wide-range of concepts, including objects, accessories, materials, pose, and lighting. Our work exploits a DiT-based text-to-image model, in which the input text affects the generation through both attention and modulation (shift and scale). We observe that the modulation space is semantic and enables localized control over complex concepts. Building on this insight, we devise an optimization-based framework that takes as input an image and a text description, and finds for each word a distinct direction in the modulation space. These directions can then be used to generate new images that combine the learned concepts in a desired configuration. We demonstrate the effectiveness of TokenVerse in challenging personalization settings, and showcase its advantages over existing methods. project's webpage in https://token-verse.github.io/
- Abstract(参考訳): TokenVerse - 事前学習したテキスト-画像拡散モデルを活用するマルチコンセプトパーソナライズ手法を提案する。
複数の画像から抽出した概念の組み合わせをシームレスにプラグ・アンド・プレイで生成し、複雑な視覚的要素や属性を1つの画像から切り離すことができる。
既存の作品とは対照的に、TokenVerseは複数のコンセプトで複数のイメージを処理でき、オブジェクト、アクセサリー、素材、ポーズ、照明など、幅広い概念をサポートする。
本研究は,DiTベースのテキスト・ツー・イメージ・モデルを用いて,注目と変調(シフトとスケール)の両方を通じて,入力テキストが生成に影響を与える。
変調空間は意味論的であり、複雑な概念を局所的に制御できる。
この知見に基づいて、画像とテキスト記述を入力として利用する最適化ベースのフレームワークを考案し、各単語に対して変調空間における異なる方向を求める。
これらの方向を使って、学習した概念を望ましい構成で組み合わせた新しいイメージを生成することができる。
TokenVerseのパーソナライズ設定に挑戦する上での有効性を実証し、既存の手法に対する利点を示す。
project's webpage in https://token-verse.github.io/
関連論文リスト
- FreeCustom: Tuning-Free Customized Image Generation for Multi-Concept Composition [49.2208591663092]
FreeCustomは、参照概念に基づいたマルチコンセプト構成のカスタマイズされた画像を生成するためのチューニング不要な方法である。
本稿では,MRSA(Multi-Reference Self-attention)機構と重み付きマスク戦略を導入する。
提案手法は,マルチコンセプト構成やシングルコンセプトのカスタマイズの観点から,他のトレーニングベース手法と同等あるいは同等に機能する。
論文 参考訳(メタデータ) (2024-05-22T17:53:38Z) - Visual Concept-driven Image Generation with Text-to-Image Diffusion Model [65.96212844602866]
テキスト・ツー・イメージ(TTI)モデルは複雑なシーンの高解像度画像を生成するという印象的な結果を示した。
近年のアプローチでは、これらの手法をパーソナライズ技術で拡張し、ユーザ認証の概念の統合を可能にしている。
しかし、人間の被写体のような複数の相互作用する概念を持つ画像を生成する能力は、1つにまたがったり、複数にまたがったりする概念は、いまだに説明がつかないままである。
これらの課題に対処する概念駆動型TTIパーソナライズフレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-18T07:28:37Z) - Textual Localization: Decomposing Multi-concept Images for
Subject-Driven Text-to-Image Generation [5.107886283951882]
マルチコンセプト入力画像を扱うための局所化テキスト・ツー・イメージモデルを提案する。
提案手法は,複数概念を分解するための新しいクロスアテンションガイダンスを組み込んだものである。
特に,本手法は,生成した画像の目標概念と整合した横断アテンションマップを生成する。
論文 参考訳(メタデータ) (2024-02-15T14:19:42Z) - Break-A-Scene: Extracting Multiple Concepts from a Single Image [80.47666266017207]
テキストシーン分解の課題を紹介する。
本稿では,対象概念の存在を示すマスクを用いた入力画像の拡張を提案する。
次に、新しい2段階のカスタマイズプロセスを示す。
論文 参考訳(メタデータ) (2023-05-25T17:59:04Z) - ELITE: Encoding Visual Concepts into Textual Embeddings for Customized
Text-to-Image Generation [59.44301617306483]
高速かつ正確にカスタマイズされた画像生成のための学習ベースエンコーダを提案する。
提案手法は,高速な符号化処理により,高忠実度インバージョンとより堅牢な編集性を実現する。
論文 参考訳(メタデータ) (2023-02-27T14:49:53Z) - Improving Visual Quality of Image Synthesis by A Token-based Generator
with Transformers [51.581926074686535]
本稿では,このタスクを視覚的トークン生成問題とみなして,画像合成の新たな視点を示す。
提案したTokenGANは、広く使われている画像合成ベンチマークで最先端の結果を得た。
論文 参考訳(メタデータ) (2021-11-05T12:57:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。