論文の概要: InstanceDiffusion: Instance-level Control for Image Generation
- arxiv url: http://arxiv.org/abs/2402.03290v1
- Date: Mon, 5 Feb 2024 18:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-06 14:05:16.442933
- Title: InstanceDiffusion: Instance-level Control for Image Generation
- Title(参考訳): instancediffusion: 画像生成のためのインスタンスレベルの制御
- Authors: Xudong Wang, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar,
Ishan Misra
- Abstract要約: InstanceDiffusionは、テキストから画像への拡散モデルに正確なインスタンスレベルの制御を追加する。
そこで本研究では,テキスト・ツー・イメージ・モデルに3つの大きな変更を加えて,高精度なインスタンスレベルの制御を実現する。
- 参考スコア(独自算出の注目度): 89.31908006870422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Text-to-image diffusion models produce high quality images but do not offer
control over individual instances in the image. We introduce InstanceDiffusion
that adds precise instance-level control to text-to-image diffusion models.
InstanceDiffusion supports free-form language conditions per instance and
allows flexible ways to specify instance locations such as simple single
points, scribbles, bounding boxes or intricate instance segmentation masks, and
combinations thereof. We propose three major changes to text-to-image models
that enable precise instance-level control. Our UniFusion block enables
instance-level conditions for text-to-image models, the ScaleU block improves
image fidelity, and our Multi-instance Sampler improves generations for
multiple instances. InstanceDiffusion significantly surpasses specialized
state-of-the-art models for each location condition. Notably, on the COCO
dataset, we outperform previous state-of-the-art by 20.4% AP$_{50}^\text{box}$
for box inputs, and 25.4% IoU for mask inputs.
- Abstract(参考訳): テキストから画像への拡散モデルは高品質な画像を生成するが、画像内の個々のインスタンスを制御できない。
テキストから画像への拡散モデルに正確なインスタンスレベル制御を追加するinstancediffusionを導入する。
instancediffusionはインスタンス毎のフリーフォーム言語条件をサポートし、単純なシングルポイント、スクリブル、バウンディングボックス、複雑なインスタンスセグメンテーションマスクなどのインスタンスロケーションを指定する柔軟な方法とそれらの組み合わせを可能にする。
本稿では,テキストから画像への3つの大きな変更を提案する。
我々のUniFusionブロックは、テキスト・ツー・イメージモデルのインスタンスレベルの条件を可能にし、ScaleUブロックは画像の忠実度を改善し、Multi-instance Samplerは複数のインスタンスの世代を改善する。
インスタンス拡散は、各位置条件に対する専門的な最先端モデルを大幅に上回る。
特にCOCOデータセットでは、ボックス入力のAP$_{50}^\text{box}$が20.4%、マスク入力のIoUが25.4%である。
関連論文リスト
- FlexEControl: Flexible and Efficient Multimodal Control for Text-to-Image Generation [99.4649330193233]
制御可能なテキスト画像拡散モデル(T2I)は、テキストプロンプトとエッジマップのような他のモダリティのセマンティック入力の両方に条件付き画像を生成する。
制御可能なT2I生成のためのフレキシブルで効率的なFlexEControlを提案する。
論文 参考訳(メタデータ) (2024-05-08T06:09:11Z) - FreeSeg-Diff: Training-Free Open-Vocabulary Segmentation with Diffusion Models [56.71672127740099]
我々は,閉鎖語彙データセットのトレーニングモデルによって伝統的に解決されるイメージセグメンテーションの課題に焦点をあてる。
我々は、ゼロショットのオープン語彙セグメンテーションのために、異なる、比較的小さなオープンソース基盤モデルを活用している。
当社のアプローチ(別名FreeSeg-Diff)は、トレーニングに依存しないもので、Pascal VOCとCOCOデータセットの両方で多くのトレーニングベースのアプローチより優れています。
論文 参考訳(メタデータ) (2024-03-29T10:38:25Z) - Self-Supervised Open-Ended Classification with Small Visual Language
Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。
約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文 参考訳(メタデータ) (2023-09-30T21:41:21Z) - MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary
Instance Segmentation [110.23359628821542]
本稿では,大語彙のインスタンスセグメンテーションのための拡散に基づくデータ拡張手法を提案する。
本手法はトレーニングフリーであり,ラベル管理に依存しない。
MosaicFusionは既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示す。
論文 参考訳(メタデータ) (2023-09-22T17:59:42Z) - DiffBlender: Scalable and Composable Multimodal Text-to-Image Diffusion
Models [10.744438740060458]
本研究の目的は,テキスト記述を超えて多種多様なモダリティを組み込むことにより,拡散型テキスト・ツー・イメージ(T2I)生成モデルの能力を拡張することである。
そこで我々は,条件のチャネルを3つのタイプに分割することで,DiffBlenderと呼ばれるマルチモーダルT2I拡散モデルを設計する。
DiffBlenderのユニークなアーキテクチャは、新しい入力モダリティの追加を容易にし、条件付き画像生成のためのスケーラブルなフレームワークを開拓する。
論文 参考訳(メタデータ) (2023-05-24T14:31:20Z) - LayoutDiffusion: Controllable Diffusion Model for Layout-to-image
Generation [46.567682868550285]
本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。
本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。
実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
論文 参考訳(メタデータ) (2023-03-30T06:56:12Z) - SpaText: Spatio-Textual Representation for Controllable Image Generation [61.89548017729586]
SpaTextはオープン語彙シーン制御を用いたテキスト・ツー・イメージ生成の新しい手法である。
シーン全体を記述したグローバルテキストプロンプトに加えて、ユーザはセグメンテーションマップを提供する。
現状拡散モデルである画素ベースと潜在条件ベースでの有効性を示す。
論文 参考訳(メタデータ) (2022-11-25T18:59:10Z) - Few-Shot Diffusion Models [15.828257653106537]
条件付きDDPMを利用した数ショット生成のためのフレームワークであるFew-Shot Diffusion Models (FSDM)を提案する。
FSDMは、画像パッチ情報を集約することにより、所定のクラスからの小さな画像集合に条件付けされた生成プロセスに適応するように訓練される。
FSDMが数ショット生成を行い、新しいデータセットに転送できることを実証的に示す。
論文 参考訳(メタデータ) (2022-05-30T23:20:33Z) - DiffusionCLIP: Text-guided Image Manipulation Using Diffusion Models [33.79188588182528]
本稿では,コントラスト言語-画像事前学習(CLIP)損失を用いた拡散モデルを用いたテキスト駆動画像操作を行うDiffusionCLIPを提案する。
提案手法は、ドメイン内および外部の画像処理タスクのための、最新のGANベースの画像処理手法に匹敵する性能を有する。
本手法は,未知の領域から別の未知の領域への画像変換や,未知の領域におけるストローク条件の画像生成など,様々な新しい用途に容易に利用できる。
論文 参考訳(メタデータ) (2021-10-06T12:59:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。