Fugu-MT 論文翻訳(概要): Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning

論文の概要: Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning

arxiv url: http://arxiv.org/abs/2307.11410v1
Date: Fri, 21 Jul 2023 08:09:47 GMT
ステータス: 翻訳完了
システム内更新日: 2023-07-24 13:23:12.514371
Title: Subject-Diffusion:Open Domain Personalized Text-to-Image Generation without Test-time Fine-tuning
Title（参考訳）: 被験者拡散:テスト時間微調整を伴わないオープンドメインパーソナライズされたテキスト画像生成
Authors: Jian Ma, Junhao Liang, Chen Chen, Haonan Lu
Abstract要約: 本稿では,新しいオープンドメインパーソナライズされた画像生成モデルであるSubject-Diffusionを提案する。提案手法は,他のSOTAフレームワークよりも,単一,複数,カスタマイズされた画像生成に優れる。
参考スコア（独自算出の注目度）: 5.427984022093369
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Recent progress in personalized image generation using diffusion models has been significant. However, development in the area of open-domain and non-fine-tuning personalized image generation is proceeding rather slowly. In this paper, we propose Subject-Diffusion, a novel open-domain personalized image generation model that, in addition to not requiring test-time fine-tuning, also only requires a single reference image to support personalized generation of single- or multi-subject in any domain. Firstly, we construct an automatic data labeling tool and use the LAION-Aesthetics dataset to construct a large-scale dataset consisting of 76M images and their corresponding subject detection bounding boxes, segmentation masks and text descriptions. Secondly, we design a new unified framework that combines text and image semantics by incorporating coarse location and fine-grained reference image control to maximize subject fidelity and generalization. Furthermore, we also adopt an attention control mechanism to support multi-subject generation. Extensive qualitative and quantitative results demonstrate that our method outperforms other SOTA frameworks in single, multiple, and human customized image generation. Please refer to our \href{https://oppo-mente-lab.github.io/subject_diffusion/}{project page}
Abstract（参考訳）: 拡散モデルを用いたパーソナライズ画像生成の最近の進歩は大きい。しかし、オープンドメインと非微調整のパーソナライズ画像生成領域の開発は徐々に進んでいる。本稿では,新しいオープンドメインパーソナライズド画像生成モデルである subject-diffusion を提案する。このモデルでは,テスト時の微調整を必要とせず,また任意のドメインにおける単一または複数サブジェクトのパーソナライズをサポートするために,単一の参照画像のみを必要とする。まず,自動データラベリングツールを構築し,laion-aestheticsデータセットを用いて,76m画像とその対象検出バウンディングボックス,セグメンテーションマスク,テキスト記述からなる大規模データセットを構築する。次に,対象の忠実性と一般化を最大化するために,粗い位置と細粒度参照画像制御を組み込むことにより,テキストと画像のセマンティクスを組み合わせた新しい統一フレームワークを設計する。さらに,マルチサブジェクト生成をサポートするための注意制御機構も採用している。広範に質的かつ定量的な結果から,本手法は他の sota フレームワークよりも単一,複数,人間のカスタマイズ画像生成に優れることが示された。 https://oppo-mente-lab.github.io/subject_diffusion/}{project page} を参照。

関連論文リスト

EliGen: Entity-Level Controlled Image Generation with Regional Attention [7.7120747804211405]
我々はエンティティレベルの制御された画像生成のための新しいフレームワークであるEliGenを紹介する。我々はEliGenに、空間的精度と画質の両方において既存の手法を超越して、堅牢で正確な実体レベルの操作を実現するよう訓練する。マルチエンタテインティングタスクにその能力を拡張したインパインティング・フュージョン・パイプラインを提案する。
論文参考訳（メタデータ） (2025-01-02T06:46:13Z)
Diffusion Self-Distillation for Zero-Shot Customized Image Generation [40.11194010431839]
Diffusion Self-Distillationは、テキスト条件のイメージ・ツー・イメージタスクのための独自のデータセットを生成する方法である。まず、画像のグリッドを作成するために、テキスト・ツー・イメージ拡散モデルのコンテキスト内生成機能を利用する。次に、キュレートされたペア化されたデータセットを使用して、テキストからイメージへのモデルに微調整する。
論文参考訳（メタデータ） (2024-11-27T18:58:52Z)
Resolving Multi-Condition Confusion for Finetuning-Free Personalized Image Generation [10.416673784744281]
本稿では,複数の参照画像特徴を対応オブジェクトにマージする重み付きマージ手法を提案する。提案手法は,マルチオブジェクト・パーソナライズされた画像生成のためのConcept101データセットとDreamBoothデータセットの最先端技術よりも優れた性能を実現する。
論文参考訳（メタデータ） (2024-09-26T15:04:13Z)
GroundingBooth: Grounding Text-to-Image Customization [17.185571339157075]
我々は、前景と背景オブジェクトの両方にゼロショットのインスタンスレベルの空間的グラウンドを実現するフレームワークであるGarthingBoothを紹介した。提案したテキスト画像グラウンドモジュールとマスク付きクロスアテンション層は、正確なレイアウトアライメントとアイデンティティ保存の両方でパーソナライズされた画像を生成することができる。
論文参考訳（メタデータ） (2024-09-13T03:40:58Z)
Openstory++: A Large-scale Dataset and Benchmark for Instance-aware Open-domain Visual Storytelling [81.69474860607542]
画像とテキストの両方にインスタンスレベルのアノテーションを追加する大規模データセットであるOpenstory++を提示する。また、長いマルチモーダルコンテキストが提供される際に、画像生成タスクを評価するための先駆的なベンチマークフレームワークであるCohere-Benchについても紹介する。
論文参考訳（メタデータ） (2024-08-07T11:20:37Z)
JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文参考訳（メタデータ） (2024-07-08T17:59:02Z)
MS-Diffusion: Multi-subject Zero-shot Image Personalization with Layout Guidance [5.452759083801634]
本研究では,マルチオブジェクトを用いたレイアウト誘導ゼロショット画像パーソナライズのためのMS-Diffusionフレームワークを提案する。提案した多目的クロスアテンションオーケストラは、テキストの制御を保ちながら、オブジェクト間コンポジションを編成する。
論文参考訳（メタデータ） (2024-06-11T12:32:53Z)
Stellar: Systematic Evaluation of Human-Centric Personalized Text-to-Image Methods [52.806258774051216]
我々は,個々のイメージを入力し,生成プロセスの基盤となるテキストと,所望の視覚的コンテキストを記述したテキストに焦点をあてる。我々は,既存の関連するデータセットよりも桁違いの大きさの個人画像と,リッチなセマンティックな接地真実アノテーションが容易に利用できるパーソナライズされたプロンプトを含む標準化データセット(Stellar)を紹介した。被験者ごとにテストタイムの微調整を必要とせず,新しいSoTAを定量的かつ人為的に設定した,シンプルで効率的でパーソナライズされたテキスト・ツー・イメージのベースラインを導出する。
論文参考訳（メタデータ） (2023-12-11T04:47:39Z)
ProSpect: Prompt Spectrum for Attribute-Aware Personalization of Diffusion Models [77.03361270726944]
現在のパーソナライズ手法は、オブジェクトや概念をテキスト条件空間に反転させ、テキストから画像への拡散モデルのための新しい自然文を構成することができる。本稿では,低周波情報から高周波画像を生成する拡散モデルのステップバイステップ生成プロセスを活用する新しい手法を提案する。 ProSpectは、画像誘導やテキスト駆動による材料、スタイル、レイアウトの操作など、パーソナライズされた属性認識画像生成アプリケーションに適用する。
論文参考訳（メタデータ） (2023-05-25T16:32:01Z)
FastComposer: Tuning-Free Multi-Subject Image Generation with Localized Attention [37.58569261714206]
拡散モデルは、特にパーソナライズされた画像に対する被写体駆動生成において、テキスト・画像生成時に優れている。 FastComposerは、微調整なしで、効率的でパーソナライズされたマルチオブジェクトのテキスト・ツー・イメージ生成を可能にする。
論文参考訳（メタデータ） (2023-05-17T17:59:55Z)
Taming Encoder for Zero Fine-tuning Image Customization with Text-to-Image Diffusion Models [55.04969603431266]
本稿では,ユーザが指定したカスタマイズされたオブジェクトの画像を生成する手法を提案する。この手法は、従来のアプローチで要求される長大な最適化をバイパスする一般的なフレームワークに基づいている。提案手法は, 出力品質, 外観の多様性, 被写体忠実度を考慮した画像合成が可能であることを示す。
論文参考訳（メタデータ） (2023-04-05T17:59:32Z)
Object-Centric Image Generation from Layouts [93.10217725729468]
複数のオブジェクトを持つ複雑なシーンを生成するレイアウト・ツー・イメージ生成法を開発した。本手法は,シーン内のオブジェクト間の空間的関係の表現を学習し,レイアウトの忠実度の向上につながる。本稿では,Fr'echet Inception Distanceのオブジェクト中心適応であるSceneFIDを紹介する。
論文参考訳（メタデータ） (2020-03-16T21:40:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。