論文の概要: ObjectComposer: Consistent Generation of Multiple Objects Without
Fine-tuning
- arxiv url: http://arxiv.org/abs/2310.06968v1
- Date: Tue, 10 Oct 2023 19:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:24:51.362538
- Title: ObjectComposer: Consistent Generation of Multiple Objects Without
Fine-tuning
- Title(参考訳): ObjectComposer: 微調整のない複数オブジェクトの一貫性生成
- Authors: Alec Helbling, Evan Montoya, Duen Horng Chau
- Abstract要約: 本稿では,ユーザが指定した画像に類似した複数のオブジェクトの合成を生成するObjectComposerを紹介する。
私たちのアプローチはトレーニングフリーで、既存のモデルの能力を活用しています。
- 参考スコア(独自算出の注目度): 25.033615513933192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image generative models can generate high-fidelity images from
text prompts. However, these models struggle to consistently generate the same
objects in different contexts with the same appearance. Consistent object
generation is important to many downstream tasks like generating comic book
illustrations with consistent characters and setting. Numerous approaches
attempt to solve this problem by extending the vocabulary of diffusion models
through fine-tuning. However, even lightweight fine-tuning approaches can be
prohibitively expensive to run at scale and in real-time. We introduce a method
called ObjectComposer for generating compositions of multiple objects that
resemble user-specified images. Our approach is training-free, leveraging the
abilities of preexisting models. We build upon the recent BLIP-Diffusion model,
which can generate images of single objects specified by reference images.
ObjectComposer enables the consistent generation of compositions containing
multiple specific objects simultaneously, all without modifying the weights of
the underlying models.
- Abstract(参考訳): 最近のテキストから画像への生成モデルは、テキストプロンプトから高忠実度画像を生成することができる。
しかし、これらのモデルは、同じ外観で異なるコンテキストで同じオブジェクトを一貫して生成するのに苦労する。
一貫性のあるオブジェクト生成は、一貫した文字と設定で漫画のイラストを生成するなど、多くの下流タスクにとって重要である。
拡散モデルの語彙を微調整によって拡張することで、多くのアプローチがこの問題を解決しようとする。
しかし、軽量な微調整アプローチでさえ、大規模かつリアルタイムに実行するには極めて高価である。
本稿では,ユーザが指定した画像に似た複数のオブジェクトの合成を生成するObjectComposerを提案する。
私たちのアプローチはトレーニングフリーで、既存のモデルの能力を活用しています。
我々は,参照画像によって指定された単一オブジェクトの画像を生成するBLIP拡散モデルを構築した。
objectcomposerは、基盤となるモデルの重みを変更せずに、複数の特定のオブジェクトを同時に含むコンポジションを一貫した生成を可能にする。
関連論文リスト
- SINGAPO: Single Image Controlled Generation of Articulated Parts in Objects [20.978091381109294]
本稿では,単一画像から音声オブジェクトを生成する手法を提案する。
提案手法は,入力画像と視覚的に一致した音声オブジェクトを生成する。
実験の結果,本手法は音声によるオブジェクト生成における最先端の手法よりも優れていることがわかった。
論文 参考訳(メタデータ) (2024-10-21T20:41:32Z) - Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation [10.416673784744281]
本稿では,複数の参照画像特徴を対応オブジェクトにマージする重み付きマージ手法を提案する。
提案手法は,マルチオブジェクト・パーソナライズされた画像生成のためのConcept101データセットとDreamBoothデータセットの最先端技術よりも優れた性能を実現する。
論文 参考訳(メタデータ) (2024-09-26T15:04:13Z) - Iterative Object Count Optimization for Text-to-image Diffusion Models [59.03672816121209]
画像とテキストのペアから学ぶ現在のモデルは、本質的にカウントに苦慮している。
本稿では,物体のポテンシャルを集計する計数モデルから得られた計数損失に基づいて生成画像の最適化を提案する。
様々なオブジェクトの生成を評価し,精度を大幅に向上させた。
論文 参考訳(メタデータ) (2024-08-21T15:51:46Z) - Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with
Prototypical Embedding [7.893308498886083]
提案手法は,オブジェクト駆動方式で一般化性と忠実性の課題に対処することを目的としている。
原型埋め込みは、拡散モデルを微調整する前に、オブジェクトの外観とそのクラスに基づいている。
我々の手法は、いくつかの既存の作業より優れています。
論文 参考訳(メタデータ) (2024-01-28T17:11:42Z) - Unlocking Spatial Comprehension in Text-to-Image Diffusion Models [33.99474729408903]
CompFuserは、テキストから画像への生成モデルにおける空間的理解と属性割り当てを強化する画像生成パイプラインである。
我々のパイプラインは、シーン内のオブジェクト間の空間的関係を定義する命令の解釈を可能にする。
論文 参考訳(メタデータ) (2023-11-28T19:00:02Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Diffusion Self-Guidance for Controllable Image Generation [106.59989386924136]
自己誘導(Self-guidance)は、拡散モデルの内部表現を導くことによって、生成された画像に対するより深い制御を提供する。
課題の画像操作を行うために、簡単なプロパティセットをいかに構成できるかを示す。
また,実画像の編集に自己指導が有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:56Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。