論文の概要: ObjectComposer: Consistent Generation of Multiple Objects Without
Fine-tuning
- arxiv url: http://arxiv.org/abs/2310.06968v1
- Date: Tue, 10 Oct 2023 19:46:58 GMT
- ステータス: 処理完了
- システム内更新日: 2023-10-13 01:24:51.362538
- Title: ObjectComposer: Consistent Generation of Multiple Objects Without
Fine-tuning
- Title(参考訳): ObjectComposer: 微調整のない複数オブジェクトの一貫性生成
- Authors: Alec Helbling, Evan Montoya, Duen Horng Chau
- Abstract要約: 本稿では,ユーザが指定した画像に類似した複数のオブジェクトの合成を生成するObjectComposerを紹介する。
私たちのアプローチはトレーニングフリーで、既存のモデルの能力を活用しています。
- 参考スコア(独自算出の注目度): 25.033615513933192
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Recent text-to-image generative models can generate high-fidelity images from
text prompts. However, these models struggle to consistently generate the same
objects in different contexts with the same appearance. Consistent object
generation is important to many downstream tasks like generating comic book
illustrations with consistent characters and setting. Numerous approaches
attempt to solve this problem by extending the vocabulary of diffusion models
through fine-tuning. However, even lightweight fine-tuning approaches can be
prohibitively expensive to run at scale and in real-time. We introduce a method
called ObjectComposer for generating compositions of multiple objects that
resemble user-specified images. Our approach is training-free, leveraging the
abilities of preexisting models. We build upon the recent BLIP-Diffusion model,
which can generate images of single objects specified by reference images.
ObjectComposer enables the consistent generation of compositions containing
multiple specific objects simultaneously, all without modifying the weights of
the underlying models.
- Abstract(参考訳): 最近のテキストから画像への生成モデルは、テキストプロンプトから高忠実度画像を生成することができる。
しかし、これらのモデルは、同じ外観で異なるコンテキストで同じオブジェクトを一貫して生成するのに苦労する。
一貫性のあるオブジェクト生成は、一貫した文字と設定で漫画のイラストを生成するなど、多くの下流タスクにとって重要である。
拡散モデルの語彙を微調整によって拡張することで、多くのアプローチがこの問題を解決しようとする。
しかし、軽量な微調整アプローチでさえ、大規模かつリアルタイムに実行するには極めて高価である。
本稿では,ユーザが指定した画像に似た複数のオブジェクトの合成を生成するObjectComposerを提案する。
私たちのアプローチはトレーニングフリーで、既存のモデルの能力を活用しています。
我々は,参照画像によって指定された単一オブジェクトの画像を生成するBLIP拡散モデルを構築した。
objectcomposerは、基盤となるモデルの重みを変更せずに、複数の特定のオブジェクトを同時に含むコンポジションを一貫した生成を可能にする。
関連論文リスト
- Object-Driven One-Shot Fine-tuning of Text-to-Image Diffusion with
Prototypical Embedding [7.893308498886083]
提案手法は,オブジェクト駆動方式で一般化性と忠実性の課題に対処することを目的としている。
原型埋め込みは、拡散モデルを微調整する前に、オブジェクトの外観とそのクラスに基づいている。
我々の手法は、いくつかの既存の作業より優れています。
論文 参考訳(メタデータ) (2024-01-28T17:11:42Z) - Unlocking Spatial Comprehension in Text-to-Image Diffusion Models [33.99474729408903]
CompFuserは、テキストから画像への生成モデルにおける空間的理解と属性割り当てを強化する画像生成パイプラインである。
我々のパイプラインは、シーン内のオブジェクト間の空間的関係を定義する命令の解釈を可能にする。
論文 参考訳(メタデータ) (2023-11-28T19:00:02Z) - LLM Blueprint: Enabling Text-to-Image Generation with Complex and
Detailed Prompts [60.54912319612113]
拡散に基づく生成モデルは、テキストと画像の生成が著しく進歩するが、長く複雑なテキストプロンプトを処理する際には困難に直面する。
本稿では,Large Language Models (LLM) を利用してテキストプロンプトから重要なコンポーネントを抽出する手法を提案する。
複数のオブジェクトを特徴とする複雑なプロンプトの評価は,ベースライン拡散モデルと比較して,リコールの大幅な改善を示す。
論文 参考訳(メタデータ) (2023-10-16T17:57:37Z) - Diffusion Self-Guidance for Controllable Image Generation [106.59989386924136]
自己誘導(Self-guidance)は、拡散モデルの内部表現を導くことによって、生成された画像に対するより深い制御を提供する。
課題の画像操作を行うために、簡単なプロパティセットをいかに構成できるかを示す。
また,実画像の編集に自己指導が有効であることを示す。
論文 参考訳(メタデータ) (2023-06-01T17:59:56Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - ObjectStitch: Generative Object Compositing [43.206123360578665]
本研究では,条件付き拡散モデルを用いたオブジェクト合成のための自己教師型フレームワークを提案する。
我々のフレームワークは、手動ラベリングを必要とせず、生成したオブジェクトの視点、幾何学、色、影を変換することができる。
本手法は, 実世界の様々な画像に対するユーザ研究において, 合成結果画像の写実性と忠実性の両方において, 関連ベースラインよりも優れていた。
論文 参考訳(メタデータ) (2022-12-02T02:15:13Z) - Context-Aware Layout to Image Generation with Enhanced Object Appearance [123.62597976732948]
レイアウト・トゥ・イメージ(l2i)生成モデルの目的は、自然背景(スタフ)に対して複数のオブジェクト(もの)を含む複雑な画像を生成することである。
既存のL2Iモデルは大きな進歩を遂げているが、オブジェクト間とオブジェクト間の関係はしばしば壊れている。
これらの原因は、ジェネレータにコンテキスト認識オブジェクトや機能エンコーディングがないことと、識別装置に位置依存の外観表現がないことにあります。
論文 参考訳(メタデータ) (2021-03-22T14:43:25Z) - Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。
本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。
本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文 参考訳(メタデータ) (2020-03-16T21:40:09Z) - Captioning Images with Novel Objects via Online Vocabulary Expansion [62.525165808406626]
新規なオブジェクトを含む画像から記述を生成するための低コストな手法を提案する。
本稿では,少数の画像特徴量から推定したオブジェクトの単語埋め込みを用いて,新たなオブジェクトで画像を説明する手法を提案する。
論文 参考訳(メタデータ) (2020-03-06T16:34:15Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。