論文の概要: InstanceDiffusion: Instance-level Control for Image Generation
- arxiv url: http://arxiv.org/abs/2402.03290v1
- Date: Mon, 5 Feb 2024 18:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:05:16.442933
- Title: InstanceDiffusion: Instance-level Control for Image Generation
- Title(参考訳): instancediffusion: 画像生成のためのインスタンスレベルの制御
- Authors: Xudong Wang, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar,
Ishan Misra
- Abstract要約: InstanceDiffusionは、テキストから画像への拡散モデルに正確なインスタンスレベルの制御を追加する。
そこで本研究では,テキスト・ツー・イメージ・モデルに3つの大きな変更を加えて,高精度なインスタンスレベルの制御を実現する。
- 参考スコア(独自算出の注目度): 89.31908006870422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models produce high quality images but do not offer
control over individual instances in the image. We introduce InstanceDiffusion
that adds precise instance-level control to text-to-image diffusion models.
InstanceDiffusion supports free-form language conditions per instance and
allows flexible ways to specify instance locations such as simple single
points, scribbles, bounding boxes or intricate instance segmentation masks, and
combinations thereof. We propose three major changes to text-to-image models
that enable precise instance-level control. Our UniFusion block enables
instance-level conditions for text-to-image models, the ScaleU block improves
image fidelity, and our Multi-instance Sampler improves generations for
multiple instances. InstanceDiffusion significantly surpasses specialized
state-of-the-art models for each location condition. Notably, on the COCO
dataset, we outperform previous state-of-the-art by 20.4% AP$_{50}^\text{box}$
for box inputs, and 25.4% IoU for mask inputs.
- Abstract(参考訳): テキストから画像への拡散モデルは高品質な画像を生成するが、画像内の個々のインスタンスを制御できない。
テキストから画像への拡散モデルに正確なインスタンスレベル制御を追加するinstancediffusionを導入する。
instancediffusionはインスタンス毎のフリーフォーム言語条件をサポートし、単純なシングルポイント、スクリブル、バウンディングボックス、複雑なインスタンスセグメンテーションマスクなどのインスタンスロケーションを指定する柔軟な方法とそれらの組み合わせを可能にする。
本稿では,テキストから画像への3つの大きな変更を提案する。
我々のUniFusionブロックは、テキスト・ツー・イメージモデルのインスタンスレベルの条件を可能にし、ScaleUブロックは画像の忠実度を改善し、Multi-instance Samplerは複数のインスタンスの世代を改善する。
インスタンス拡散は、各位置条件に対する専門的な最先端モデルを大幅に上回る。
特にCOCOデータセットでは、ボックス入力のAP$_{50}^\text{box}$が20.4%、マスク入力のIoUが25.4%である。
関連論文リスト
- LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation [17.169772329737913]
LocRef-Diffusionは、画像内の複数のインスタンスの外観と位置をカスタマイズできるチューニング不要のモデルである。
インスタンス配置の精度を高めるために,インスタンス生成位置を制御するレイアウトネットを導入する。
参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出する外観ネットを用いる。
論文 参考訳(メタデータ) (2024-11-22T08:44:39Z) - Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。
本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。
実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文 参考訳(メタデータ) (2024-11-16T23:44:14Z) - A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。
提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。
我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文 参考訳(メタデータ) (2024-10-15T09:41:43Z) - FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。
画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文 参考訳(メタデータ) (2024-08-09T02:16:37Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation [104.03166324080917]
MosaicFusionは、大語彙のインスタンスセグメンテーションのための、単純で効果的な拡散に基づくデータ拡張手法である。
本手法はトレーニングフリーであり,ラベル管理に依存しない。
LVISロングテールおよびオープンボキャブラリベンチマークの実験結果は、MosaicFusionが既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示した。
論文 参考訳(メタデータ) (2023-09-22T17:59:42Z) - DiffBlender: Scalable and Composable Multimodal Text-to-Image Diffusion
Models [10.744438740060458]
本研究の目的は,テキスト記述を超えて多種多様なモダリティを組み込むことにより,拡散型テキスト・ツー・イメージ(T2I)生成モデルの能力を拡張することである。
そこで我々は,条件のチャネルを3つのタイプに分割することで,DiffBlenderと呼ばれるマルチモーダルT2I拡散モデルを設計する。
DiffBlenderのユニークなアーキテクチャは、新しい入力モダリティの追加を容易にし、条件付き画像生成のためのスケーラブルなフレームワークを開拓する。
論文 参考訳(メタデータ) (2023-05-24T14:31:20Z) - LayoutDiffusion: Controllable Diffusion Model for Layout-to-image
Generation [46.567682868550285]
本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。
本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。
実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
論文 参考訳(メタデータ) (2023-03-30T06:56:12Z) - Few-Shot Diffusion Models [15.828257653106537]
条件付きDDPMを利用した数ショット生成のためのフレームワークであるFew-Shot Diffusion Models (FSDM)を提案する。
FSDMは、画像パッチ情報を集約することにより、所定のクラスからの小さな画像集合に条件付けされた生成プロセスに適応するように訓練される。
FSDMが数ショット生成を行い、新しいデータセットに転送できることを実証的に示す。
論文 参考訳(メタデータ) (2022-05-30T23:20:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。