Fugu-MT 論文翻訳(概要): OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction

論文の概要: OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction

arxiv url: http://arxiv.org/abs/2410.04932v1
Date: Mon, 7 Oct 2024 11:26:13 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-02 01:18:10.023388
Title: OmniBooth: Learning Latent Control for Image Synthesis with Multi-modal Instruction
Title（参考訳）: OmniBooth:マルチモーダルインストラクションによる画像合成のための遅延制御学習
Authors: Leheng Li, Weichao Qiu, Xu Yan, Jing He, Kaiqiang Zhou, Yingjie Cai, Qing Lian, Bingbing Liu, Ying-Cong Chen,
Abstract要約: 我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。提案手法は,テキスト・画像生成の範囲を大きく拡大し,より汎用的で実用的な制御性に拡張する。
参考スコア（独自算出の注目度）: 32.08995899903304
License: http://creativecommons.org/licenses/by/4.0/
Abstract: We present OmniBooth, an image generation framework that enables spatial control with instance-level multi-modal customization. For all instances, the multimodal instruction can be described through text prompts or image references. Given a set of user-defined masks and associated text or image guidance, our objective is to generate an image, where multiple objects are positioned at specified coordinates and their attributes are precisely aligned with the corresponding guidance. This approach significantly expands the scope of text-to-image generation, and elevates it to a more versatile and practical dimension in controllability. In this paper, our core contribution lies in the proposed latent control signals, a high-dimensional spatial feature that provides a unified representation to integrate the spatial, textual, and image conditions seamlessly. The text condition extends ControlNet to provide instance-level open-vocabulary generation. The image condition further enables fine-grained control with personalized identity. In practice, our method empowers users with more flexibility in controllable generation, as users can choose multi-modal conditions from text or images as needed. Furthermore, thorough experiments demonstrate our enhanced performance in image synthesis fidelity and alignment across different tasks and datasets. Project page: https://len-li.github.io/omnibooth-web/
Abstract（参考訳）: 我々は,インスタンスレベルのマルチモーダルカスタマイズによる空間制御を実現する画像生成フレームワークOmniBoothを提案する。すべてのインスタンスに対して、マルチモーダル命令はテキストプロンプトや画像参照を通じて記述することができる。ユーザ定義マスクのセットと関連するテキストや画像のガイダンスから,複数のオブジェクトが指定された座標に配置され,その属性が対応するガイダンスと正確に一致した画像を生成することが目的である。このアプローチは、テキスト・画像生成の範囲を大きく拡大し、制御性においてより汎用的で実践的な次元にまで拡大する。本稿では,空間的,テキスト的,画像的条件をシームレスに統合する統一表現を提供する高次元空間的特徴である潜在制御信号のコアコントリビューションについて述べる。テキスト条件はControlNetを拡張し、インスタンスレベルのオープン語彙生成を提供する。画像条件はさらに、パーソナライズされたアイデンティティによるきめ細かい制御を可能にする。実際に本手法は,テキストや画像から複数モード条件を選択することができるため,制御可能な生成の柔軟性を向上する。さらに、画像合成の忠実度向上と、タスクやデータセット間のアライメントに関する詳細な実験を行った。プロジェクトページ:https://len-li.github.io/omnibooth-web/

関連論文リスト

ControlThinker: Unveiling Latent Semantics for Controllable Image Generation through Visual Reasoning [76.2503352325492]
ControlThinkerは、"Comprehend-then-generate"パラダイムを採用した、新しいフレームワークである。制御画像からの潜在セマンティクスは、テキストプロンプトを豊かにするためにマイニングされる。このリッチなセマンティック理解は、追加の複雑な修正を必要とせずに、画像生成をシームレスに支援する。
論文参考訳（メタデータ） (2025-06-04T05:56:19Z)
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文参考訳（メタデータ） (2025-02-27T15:08:39Z)
ART: Anonymous Region Transformer for Variable Multi-Layer Transparent Image Generation [108.69315278353932]
可変多層透明画像の直接生成を容易にするAnonymous Region Transformer(ART)を導入する。正確な制御とスケーラブルなレイヤ生成を可能にすることで、ARTはインタラクティブなコンテンツ作成のための新しいパラダイムを確立します。
論文参考訳（メタデータ） (2025-02-25T16:57:04Z)
ComposeAnyone: Controllable Layout-to-Human Generation with Decoupled Multimodal Conditions [74.30040551058319]
ComposeAnyoneはマルチモーダル条件を分離した制御可能なレイアウト・ツー・ヒューマン生成手法である。我々のデータセットは、各人間の画像の異なるコンポーネントに対して、分離されたテキストと参照画像アノテーションを提供する。複数のデータセットの実験では、ComposeAnyoneが所定のレイアウトに整合して人間の画像を生成することが示されている。
論文参考訳（メタデータ） (2025-01-21T14:32:47Z)
UNIC-Adapter: Unified Image-instruction Adapter with Multi-modal Transformer for Image Generation [64.8341372591993]
一つのフレームワーク内で制御可能な生成を統一するための新しいアプローチを提案する。具体的には,Multi-Modal-Diffusion Transformerアーキテクチャ上に構築された統合イメージインストラクションアダプタ(UNIC-Adapter)を提案する。 UNIC-Adapterは条件付き画像とタスク命令の両方を組み込んだマルチモーダル命令情報を効果的に抽出する。
論文参考訳（メタデータ） (2024-12-25T15:19:02Z)
Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文参考訳（メタデータ） (2024-11-16T23:44:14Z)
PixWizard: Versatile Image-to-Image Visual Assistant with Open-Language Instructions [66.92809850624118]
PixWizardは、画像生成、操作、翻訳を自由言語命令に基づいて行うために設計されたイメージ・ツー・イメージのビジュアルアシスタントである。我々は、様々な視覚タスクを統一された画像テキスト・画像生成フレームワークに取り組み、Omni Pixel-to-Pixel Instruction-Tuningデータセットをキュレートする。我々の実験は、PixWizardが様々な解像度の画像に対して印象的な生成能力と理解能力を示すだけでなく、目に見えないタスクや人間の指示で有望な一般化能力を示すことを示した。
論文参考訳（メタデータ） (2024-09-23T17:59:46Z)
AnyControl: Create Your Artwork with Versatile Control on Text-to-Image Generation [24.07613591217345]
言語制御は効果的なコンテンツ生成を可能にするが、画像生成のきめ細かい制御に苦慮する。 AnyControlは、生成プロセスのガイドとして、統一されたマルチモーダル埋め込みを抽出する、新しいマルチControlフレームワークを開発している。このアプローチは、ユーザ入力の全体的理解を可能にし、汎用的な制御信号の下で高品質で忠実な結果を生成する。
論文参考訳（メタデータ） (2024-06-27T07:40:59Z)
Caption Anything: Interactive Image Description with Diverse Multimodal Controls [14.628597750669275]
制御可能な画像キャプションは、人間の目的に従って自然言語で画像を記述することを目的としている。本稿では,画像キャプションの基盤モデルであるCaption AnyThingを紹介する。 Segment Anything Model (SAM) と ChatGPT によってパワーアップされた私たちは、視覚的および言語的プロンプトをモジュール化されたフレームワークに統合します。
論文参考訳（メタデータ） (2023-05-04T09:48:22Z)
FlexIT: Towards Flexible Semantic Image Translation [59.09398209706869]
我々は,任意の入力画像とユーザが定義したテキストを編集するための新しい方法であるFlexITを提案する。まず、FlexITは入力画像とテキストをCLIPマルチモーダル埋め込み空間内の単一のターゲットポイントに結合する。我々は、入力画像を目標点に向けて反復的に変換し、新しい正規化用語で一貫性と品質を確保する。
論文参考訳（メタデータ） (2022-03-09T13:34:38Z)
Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文参考訳（メタデータ） (2021-04-18T16:56:07Z)
Learning Multimodal Affinities for Textual Editing in Images [18.7418059568887]
文書イメージにおけるテキストエンティティ間のマルチモーダルな親和性を学ぶための汎用的な非監視手法を考案する。次に、これらの学習親和性を使用して、画像内のテキストエンティティを異なるセマンティックグループに自動的にクラスタ化する。本手法は,幅広い文書にまたがる高度に多様な画像に対して動作可能であり,様々な編集操作に適用可能であることを示す。
論文参考訳（メタデータ） (2021-03-18T10:09:57Z)
TediGAN: Text-Guided Diverse Face Image Generation and Manipulation [52.83401421019309]
TediGANはマルチモーダル画像生成とテキスト記述による操作のためのフレームワークである。 StyleGANインバージョンモジュールは、よく訓練されたStyleGANの潜在空間に実際の画像をマッピングする。視覚言語的類似性は、画像とテキストを共通の埋め込み空間にマッピングすることで、テキスト画像マッチングを学ぶ。インスタンスレベルの最適化は、操作におけるID保存のためのものだ。
論文参考訳（メタデータ） (2020-12-06T16:20:19Z)
Text as Neural Operator: Image Manipulation by Text Instruction [68.53181621741632]
本稿では、複雑なテキスト命令を用いて複数のオブジェクトで画像を編集し、オブジェクトの追加、削除、変更を可能にする設定について検討する。タスクの入力は、(1)参照画像を含むマルチモーダルであり、(2)所望の修正を記述した自然言語の命令である。提案モデルは,最近の3つの公開データセットの強いベースラインに対して良好に動作することを示す。
論文参考訳（メタデータ） (2020-08-11T07:07:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。