Fugu-MT 論文翻訳(概要): InstanceDiffusion: Instance-level Control for Image Generation

論文の概要: InstanceDiffusion: Instance-level Control for Image Generation

arxiv url: http://arxiv.org/abs/2402.03290v1
Date: Mon, 5 Feb 2024 18:49:17 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-06 14:05:16.442933
Title: InstanceDiffusion: Instance-level Control for Image Generation
Title（参考訳）: instancediffusion: 画像生成のためのインスタンスレベルの制御
Authors: Xudong Wang, Trevor Darrell, Sai Saketh Rambhatla, Rohit Girdhar, Ishan Misra
Abstract要約: InstanceDiffusionは、テキストから画像への拡散モデルに正確なインスタンスレベルの制御を追加する。そこで本研究では,テキスト・ツー・イメージ・モデルに3つの大きな変更を加えて,高精度なインスタンスレベルの制御を実現する。
参考スコア（独自算出の注目度）: 89.31908006870422
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Text-to-image diffusion models produce high quality images but do not offer control over individual instances in the image. We introduce InstanceDiffusion that adds precise instance-level control to text-to-image diffusion models. InstanceDiffusion supports free-form language conditions per instance and allows flexible ways to specify instance locations such as simple single points, scribbles, bounding boxes or intricate instance segmentation masks, and combinations thereof. We propose three major changes to text-to-image models that enable precise instance-level control. Our UniFusion block enables instance-level conditions for text-to-image models, the ScaleU block improves image fidelity, and our Multi-instance Sampler improves generations for multiple instances. InstanceDiffusion significantly surpasses specialized state-of-the-art models for each location condition. Notably, on the COCO dataset, we outperform previous state-of-the-art by 20.4% AP$_{50}^\text{box}$ for box inputs, and 25.4% IoU for mask inputs.
Abstract（参考訳）: テキストから画像への拡散モデルは高品質な画像を生成するが、画像内の個々のインスタンスを制御できない。テキストから画像への拡散モデルに正確なインスタンスレベル制御を追加するinstancediffusionを導入する。 instancediffusionはインスタンス毎のフリーフォーム言語条件をサポートし、単純なシングルポイント、スクリブル、バウンディングボックス、複雑なインスタンスセグメンテーションマスクなどのインスタンスロケーションを指定する柔軟な方法とそれらの組み合わせを可能にする。本稿では,テキストから画像への3つの大きな変更を提案する。我々のUniFusionブロックは、テキスト・ツー・イメージモデルのインスタンスレベルの条件を可能にし、ScaleUブロックは画像の忠実度を改善し、Multi-instance Samplerは複数のインスタンスの世代を改善する。インスタンス拡散は、各位置条件に対する専門的な最先端モデルを大幅に上回る。特にCOCOデータセットでは、ボックス入力のAP$_{50}^\text{box}$が20.4%、マスク入力のIoUが25.4%である。

関連論文リスト

Unified Multimodal Discrete Diffusion [78.48930545306654]
複数のモードをまたいだ理解と生成が可能なマルチモーダル生成モデルは、自己回帰(AR)アプローチによって支配される。共同テキストと画像領域の統一的な生成形式としての離散拡散モデルについて検討する。テキストと画像の共同理解・生成が可能なUnified Multimodal Discrete Diffusion (UniDisc) モデルを提案する。
論文参考訳（メタデータ） (2025-03-26T17:59:51Z)
Multimodal Representation Alignment for Image Generation: Text-Image Interleaved Control Is Easier Than You Think [38.258453761376586]
本稿では,画像生成モデルにおける任意のテキストイメージインターリーブド制御のための効率的なフレームワークであるDream Engineを提案する。提案手法は,テキスト・イメージアライメントとマルチモーダル・インターリーブド・インストラクション・チューニングからなる2段階の訓練パラダイムを利用する。本手法は,GenEvalベンチマークで0.69点の総合スコアを達成し,有効であることを示す。
論文参考訳（メタデータ） (2025-02-27T15:08:39Z)
Grounding Text-to-Image Diffusion Models for Controlled High-Quality Image Generation [0.0]
テキスト・ツー・イメージ(T2I)生成拡散モデルは,テキストキャプションから多種多様な高品質な視覚を合成する際,優れた性能を示した。我々は,意味的および空間的接地情報に基づいて,T2I拡散モデルを記述するモデルであるObjectDiffusionを提案する。
論文参考訳（メタデータ） (2025-01-15T22:55:26Z)
DynamicControl: Adaptive Condition Selection for Improved Text-to-Image Generation [63.63429658282696]
多様な制御信号の動的組み合わせをサポートするDynamicControlを提案する。様々な条件下での制御性,生成品質,構成性の観点から,DynamicControlは既存の手法よりも優れていることを示す。
論文参考訳（メタデータ） (2024-12-04T11:54:57Z)
LocRef-Diffusion:Tuning-Free Layout and Appearance-Guided Generation [17.169772329737913]
LocRef-Diffusionは、画像内の複数のインスタンスの外観と位置をカスタマイズできるチューニング不要のモデルである。インスタンス配置の精度を高めるために,インスタンス生成位置を制御するレイアウトネットを導入する。参照画像に対する外観忠実度を改善するために,インスタンスの外観特徴を抽出する外観ネットを用いる。
論文参考訳（メタデータ） (2024-11-22T08:44:39Z)
Generating Compositional Scenes via Text-to-image RGBA Instance Generation [82.63805151691024]
テキストから画像への拡散生成モデルは、退屈な急進的なエンジニアリングを犠牲にして高品質な画像を生成することができる。本稿では, 粒度制御, 柔軟性, 相互作用性を考慮した新しい多段階生成パラダイムを提案する。実験の結果,RGBA拡散モデルでは,オブジェクト属性を正確に制御した多種多様な高品質なインスタンスを生成できることがわかった。
論文参考訳（メタデータ） (2024-11-16T23:44:14Z)
A Simple Approach to Unifying Diffusion-based Conditional Generation [63.389616350290595]
多様な条件生成タスクを処理するための、シンプルで統一されたフレームワークを導入します。提案手法は,異なる推論時間サンプリング方式による多目的化を実現する。我々のモデルは、非親密なアライメントや粗い条件付けのような追加機能をサポートしています。
論文参考訳（メタデータ） (2024-10-15T09:41:43Z)
FUSE-ing Language Models: Zero-Shot Adapter Discovery for Prompt Optimization Across Tokenizers [55.2480439325792]
FUSEは、あるモデルのテキスト埋め込み空間から別のモデルへのマッピングを行うアダプタ層を、異なるトークン化器にまたがっても近似するアプローチである。画像キャプションと感情に基づく画像キャプションのための視覚言語モデルと因果言語モデルに対する多目的最適化によるアプローチの有効性を示す。
論文参考訳（メタデータ） (2024-08-09T02:16:37Z)
Self-Supervised Open-Ended Classification with Small Visual Language Models [60.23212389067007]
我々は、小さな視覚言語モデルを用いたオープンエンド分類のための数ショットの能力を解放する自己教師型アプローチであるSeCAtを提案する。約1Bパラメータを持つモデルを使用することで、FrozenやBrobAGeといった、はるかに大きなモデルの少数ショット能力より優れています。
論文参考訳（メタデータ） (2023-09-30T21:41:21Z)
MosaicFusion: Diffusion Models as Data Augmenters for Large Vocabulary Instance Segmentation [104.03166324080917]
MosaicFusionは、大語彙のインスタンスセグメンテーションのための、単純で効果的な拡散に基づくデータ拡張手法である。本手法はトレーニングフリーであり,ラベル管理に依存しない。 LVISロングテールおよびオープンボキャブラリベンチマークの実験結果は、MosaicFusionが既存のインスタンスセグメンテーションモデルの性能を大幅に改善できることを示した。
論文参考訳（メタデータ） (2023-09-22T17:59:42Z)
DiffBlender: Scalable and Composable Multimodal Text-to-Image Diffusion Models [10.744438740060458]
本研究の目的は,テキスト記述を超えて多種多様なモダリティを組み込むことにより,拡散型テキスト・ツー・イメージ(T2I)生成モデルの能力を拡張することである。そこで我々は,条件のチャネルを3つのタイプに分割することで,DiffBlenderと呼ばれるマルチモーダルT2I拡散モデルを設計する。 DiffBlenderのユニークなアーキテクチャは、新しい入力モダリティの追加を容易にし、条件付き画像生成のためのスケーラブルなフレームワークを開拓する。
論文参考訳（メタデータ） (2023-05-24T14:31:20Z)
LayoutDiffusion: Controllable Diffusion Model for Layout-to-image Generation [46.567682868550285]
本稿では,従来よりも高い生成品質と制御性が得られるLayoutDiffusionという拡散モデルを提案する。本稿では、領域情報を用いた構造画像パッチを構築し、パッチされた画像を特別なレイアウトに変換し、通常のレイアウトを統一した形で融合させる。実験の結果,従来のSOTA法では比較的46.35%,COCO-stuff法では26.70%,VG Codeでは44.29%,41.82%であった。
論文参考訳（メタデータ） (2023-03-30T06:56:12Z)
Few-Shot Diffusion Models [15.828257653106537]
条件付きDDPMを利用した数ショット生成のためのフレームワークであるFew-Shot Diffusion Models (FSDM)を提案する。 FSDMは、画像パッチ情報を集約することにより、所定のクラスからの小さな画像集合に条件付けされた生成プロセスに適応するように訓練される。 FSDMが数ショット生成を行い、新しいデータセットに転送できることを実証的に示す。
論文参考訳（メタデータ） (2022-05-30T23:20:33Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。