論文の概要: OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction
- arxiv url: http://arxiv.org/abs/2410.04932v1
- Date: Mon, 7 Oct 2024 11:26:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-11-02 01:18:10.023388
- Title: OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction
- Title(参考訳): OmniBooth:マルチモーダルインストラクションによる画像合成のための遅延制御学習
- Authors: Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen,
- Abstract要約: 我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。
提案手法は,テキスト・画像生成の範囲を大きく拡大し,より汎用的で実用的な制御性に拡張する。
- 参考スコア(独自算出の注目度): 32.08995899903304
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present OmniBooth, an image generation framework that enables spatial control with instance-level multi-modal customization. For all instances, the multimodal instruction can be described through text prompts or image references. Given a set of user-defined masks and associated text or image guidance, our objective is to generate an image, where multiple objects are positioned at specified coordinates and their attributes are precisely aligned with the corresponding guidance. This approach significantly expands the scope of text-to-image generation, and elevates it to a more versatile and practical dimension in controllability. In this paper, our core contribution lies in the proposed latent control signals, a high-dimensional spatial feature that provides a unified representation to integrate the spatial, textual, and image conditions seamlessly. The text condition extends ControlNet to provide instance-level open-vocabulary generation. The image condition further enables fine-grained control with personalized identity. In practice, our method empowers users with more flexibility in controllable generation, as users can choose multi-modal conditions from text or images as needed. Furthermore, thorough experiments demonstrate our enhanced performance in image synthesis fidelity and alignment across different tasks and datasets. Project page: https://len-li.github.io/omnibooth-web/
- Abstract(参考訳): 我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。
すべてのインスタンスに対して、マルチモーダル命令はテキストプロンプトや画像参照を通じて記述することができる。
ユーザ定義マスクのセットと関連するテキストや画像のガイダンスから,複数のオブジェクトが指定された座標に配置され,その属性が対応するガイダンスと正確に一致した画像を生成することが目的である。
このアプローチは、テキスト・画像生成の範囲を大きく拡大し、制御性においてより汎用的で実践的な次元にまで拡大する。
本稿では,空間的,テキスト的,画像的条件をシームレスに統合する統一表現を提供する高次元空間的特徴である潜在制御信号のコアコントリビューションについて述べる。
テキスト条件はControlNetを拡張し、インスタンスレベルのオープン語彙生成を提供する。
画像条件はさらに、パーソナライズされたアイデンティティによるきめ細かい制御を可能にする。
実際に本手法は,テキストや画像から複数モード条件を選択することができるため,制御可能な生成の柔軟性を向上する。
さらに、画像合成の忠実度向上と、タスクやデータセット間のアライメントに関する詳細な実験を行った。
プロジェクトページ:https://len-li.github.io/omnibooth-web/
関連論文リスト
- PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。
我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。
我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文 参考訳(メタデータ) (2024-09-23T17:59:46Z) - MM2Latent: Text-to-facial image generation and editing in GANs with multimodal assistance [32.70801495328193]
マルチモーダル画像生成と編集のための実践的なフレームワークMM2Latentを提案する。
画像生成にはStyleGAN2を使用し,テキスト符号化にはFaRLを使用し,マスクやスケッチ,3DMMなどの空間変調のためのオートエンコーダを訓練する。
提案手法は,近年のGAN法や拡散法を超越したマルチモーダル画像生成において,優れた性能を示す。
論文 参考訳(メタデータ) (2024-09-17T09:21:07Z) - Lumina-mGPT: Illuminate Flexible Photorealistic Text-to-Image Generation with Multimodal Generative Pretraining [48.98105914356609]
ルミナ-mGPT (Lumina-mGPT) は、様々な視覚と言語を扱える多モード自動回帰モデルのファミリーである。
我々は,Ominiponent Supervised Finetuningを導入し,Lumina-mGPTを全能タスク統一をシームレスに達成する基礎モデルに変換する。
論文 参考訳(メタデータ) (2024-08-05T17:46:53Z) - AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。
AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。
このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文 参考訳(メタデータ) (2024-06-27T07:40:59Z) - Caption Anything: Interactive Image Description with Diverse Multimodal
Controls [14.628597750669275]
制御可能な画像キャプションは、人間の目的に従って自然言語で画像を記述することを目的としている。
本稿では,画像キャプションの基盤モデルであるCaption AnyThingを紹介する。
Segment Anything Model (SAM) と ChatGPT によってパワーアップされた私たちは、視覚的および言語的プロンプトをモジュール化されたフレームワークに統合します。
論文 参考訳(メタデータ) (2023-05-04T09:48:22Z) - FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。
まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。
我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文 参考訳(メタデータ) (2022-03-09T13:34:38Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z) - Learning Multimodal Affinities for Textual Editing in Images [18.7418059568887]
文書イメージにおけるテキストエンティティ間のマルチモーダルな親和性を学ぶための汎用的な非監視手法を考案する。
次に、これらの学習親和性を使用して、画像内のテキストエンティティを異なるセマンティックグループに自動的にクラスタ化する。
本手法は,幅広い文書にまたがる高度に多様な画像に対して動作可能であり,様々な編集操作に適用可能であることを示す。
論文 参考訳(メタデータ) (2021-03-18T10:09:57Z) - TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。
StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。
視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。
インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文 参考訳(メタデータ) (2020-12-06T16:20:19Z) - Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。
タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。
提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文 参考訳(メタデータ) (2020-08-11T07:07:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。