論文の概要: Generate Anything Anywhere in Any Scene
- arxiv url: http://arxiv.org/abs/2306.17154v1
- Date: Thu, 29 Jun 2023 17:55:14 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-30 12:08:33.687351
- Title: Generate Anything Anywhere in Any Scene
- Title(参考訳): あらゆる場面であらゆるものを生成する
- Authors: Yuheng Li, Haotian Liu, Yangming Wen, Yong Jae Lee
- Abstract要約: パーソナライズされたオブジェクト生成のための制御可能なテキスト・画像拡散モデルを提案する。
本手法は,芸術,エンターテイメント,広告デザインなど,様々な応用の可能性を示すものである。
- 参考スコア(独自算出の注目度): 25.75076439397536
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Text-to-image diffusion models have attracted considerable interest due to
their wide applicability across diverse fields. However, challenges persist in
creating controllable models for personalized object generation. In this paper,
we first identify the entanglement issues in existing personalized generative
models, and then propose a straightforward and efficient data augmentation
training strategy that guides the diffusion model to focus solely on object
identity. By inserting the plug-and-play adapter layers from a pre-trained
controllable diffusion model, our model obtains the ability to control the
location and size of each generated personalized object. During inference, we
propose a regionally-guided sampling technique to maintain the quality and
fidelity of the generated images. Our method achieves comparable or superior
fidelity for personalized objects, yielding a robust, versatile, and
controllable text-to-image diffusion model that is capable of generating
realistic and personalized images. Our approach demonstrates significant
potential for various applications, such as those in art, entertainment, and
advertising design.
- Abstract(参考訳): テキストから画像への拡散モデルは、様々な分野にまたがる幅広い適用性のために、かなりの関心を集めている。
しかし、パーソナライズされたオブジェクト生成のためのコントロール可能なモデルの作成には課題が続いている。
本稿では,まず,既存のパーソナライズされた生成モデルの絡み合い問題を特定し,拡散モデルがオブジェクトのアイデンティティのみに焦点をあてるように指導する,分かりやすく効率的なデータ拡張トレーニング戦略を提案する。
予め訓練した制御可能な拡散モデルからプラグアンドプレイアダプタ層を挿入することにより、生成した各パーソナライズされたオブジェクトの位置とサイズを制御することができる。
推論中,生成画像の品質と忠実度を維持するため,地域誘導サンプリング手法を提案する。
本手法はパーソナライズされたオブジェクトに対して同等または優れた忠実性を実現し,リアルでパーソナライズされた画像を生成することができる,堅牢で汎用的で制御可能なテキスト間拡散モデルを実現する。
本手法は,アート,エンタテインメント,広告デザインなど,様々なアプリケーションに対して有意な可能性を示す。
関連論文リスト
- YaART: Yet Another ART Rendering Technology [119.09155882164573]
そこで本研究では,ヒトの嗜好に適合する新しい生産段階のテキスト・ツー・イメージ拡散モデルYaARTを紹介した。
これらの選択がトレーニングプロセスの効率と生成された画像の品質にどのように影響するかを分析する。
高品質な画像の小さなデータセットでトレーニングされたモデルが、より大きなデータセットでトレーニングされたモデルとうまく競合できることを実証する。
論文 参考訳(メタデータ) (2024-04-08T16:51:19Z) - Towards Unified Multi-Modal Personalization: Large Vision-Language Models for Generative Recommendation and Beyond [87.1712108247199]
我々の目標は、マルチモーダルパーソナライゼーションシステム(UniMP)のための統一パラダイムを確立することである。
我々は、幅広いパーソナライズされたニーズに対処できる汎用的でパーソナライズされた生成フレームワークを開発する。
我々の手法は、パーソナライズされたタスクのための基礎言語モデルの能力を高める。
論文 参考訳(メタデータ) (2024-03-15T20:21:31Z) - Diffusion Models Trained with Large Data Are Transferable Visual Models [49.84679952948808]
そこで本研究では,適度な量の目標データを用いて,基本的な視覚知覚タスクにおいて顕著な伝達性能を実現することができることを示す。
結果は、様々なタスクや実世界のデータセットにまたがる拡散モデルのバックボーンの顕著な転送可能性を示している。
論文 参考訳(メタデータ) (2024-03-10T04:23:24Z) - Bridging Generative and Discriminative Models for Unified Visual
Perception with Diffusion Priors [56.82596340418697]
本稿では,豊富な生成前駆体を含む事前学習型安定拡散(SD)モデルと,階層的表現を統合可能な統一型ヘッド(Uヘッド)と,識別前駆体を提供する適応型専門家からなる,シンプルで効果的なフレームワークを提案する。
包括的調査では、異なる時間ステップで潜伏変数に隠された知覚の粒度や様々なU-netステージなど、バーマスの潜在的な特性が明らかになった。
有望な結果は,有望な学習者としての拡散モデルの可能性を示し,情報的かつ堅牢な視覚表現の確立にその意義を定めている。
論文 参考訳(メタデータ) (2024-01-29T10:36:57Z) - Morphable Diffusion: 3D-Consistent Diffusion for Single-image Avatar Creation [14.064983137553353]
我々は、制御可能な光リアルな人間のアバターを作成するために、生成拡散モデルの品質と機能を高めることを目的としている。
我々は,3次元形態素モデルを最先端の多視点拡散手法に統合することで実現した。
提案するフレームワークは, 完全3次元一貫性, アニマタブル, フォトリアリスティックな人間のアバターの作成を可能にする最初の拡散モデルである。
論文 参考訳(メタデータ) (2024-01-09T18:59:04Z) - DiffuGen: Adaptable Approach for Generating Labeled Image Datasets using
Stable Diffusion Models [2.0935496890864207]
DiffuGenは、安定拡散モデルのパワーを利用してラベル付き画像データセットを効率的に作成する、シンプルで適応可能なアプローチである。
安定した拡散モデルを利用することで、我々のアプローチは生成されたデータセットの品質を保証するだけでなく、ラベル生成のための汎用的なソリューションも提供します。
論文 参考訳(メタデータ) (2023-09-01T04:42:03Z) - Taming Encoder for Zero Fine-tuning Image Customization with
Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。
この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。
提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文 参考訳(メタデータ) (2023-04-05T17:59:32Z) - Cross-domain Compositing with Pretrained Diffusion Models [34.98199766006208]
我々は,背景シーンから抽出した文脈情報で注入対象を注入する局所的反復的精錬方式を採用する。
本手法では,アノテーションやトレーニングを必要とせず,高品質で現実的な結果が得られる。
論文 参考訳(メタデータ) (2023-02-20T18:54:04Z) - Extracting Training Data from Diffusion Models [77.11719063152027]
拡散モデルはトレーニングデータから個々の画像を記憶し,生成時に出力することを示す。
生成とフィルタのパイプラインを用いて、最先端のモデルから数千以上のトレーニング例を抽出する。
さまざまな設定で何百もの拡散モデルをトレーニングし、モデリングとデータ決定の違いがプライバシに与える影響を分析する。
論文 参考訳(メタデータ) (2023-01-30T18:53:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。