論文の概要: P3S-Diffusion:A Selective Subject-driven Generation Framework via Point Supervision
- arxiv url: http://arxiv.org/abs/2412.19533v2
- Date: Mon, 06 Jan 2025 04:50:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-07 17:04:22.413244
- Title: P3S-Diffusion:A Selective Subject-driven Generation Framework via Point Supervision
- Title(参考訳): P3S拡散:ポイントスーパービジョンによる選択的主観駆動生成フレームワーク
- Authors: Junjie Hu, Shuyong Gao, Lingyi Hong, Qishan Wang, Yuzhou Zhao, Yan Wang, Wenqiang Zhang,
- Abstract要約: 本稿では,P3S-Diffusionについて紹介する。
P3S-Diffusionは最小のコストラベル(例えば点)を利用して主観的画像を生成する。
これらの点から拡張されたベースマスクを生成することができ、さらなるセグメンテーションモデルの必要性を回避できる。
- 参考スコア(独自算出の注目度): 26.809052144856928
- License:
- Abstract: Recent research in subject-driven generation increasingly emphasizes the importance of selective subject features. Nevertheless, accurately selecting the content in a given reference image still poses challenges, especially when selecting the similar subjects in an image (e.g., two different dogs). Some methods attempt to use text prompts or pixel masks to isolate specific elements. However, text prompts often fall short in precisely describing specific content, and pixel masks are often expensive. To address this, we introduce P3S-Diffusion, a novel architecture designed for context-selected subject-driven generation via point supervision. P3S-Diffusion leverages minimal cost label (e.g., points) to generate subject-driven images. During fine-tuning, it can generate an expanded base mask from these points, obviating the need for additional segmentation models. The mask is employed for inpainting and aligning with subject representation. The P3S-Diffusion preserves fine features of the subjects through Multi-layers Condition Injection. Enhanced by the Attention Consistency Loss for improved training, extensive experiments demonstrate its excellent feature preservation and image generation capabilities.
- Abstract(参考訳): 近年の主観的世代形成の研究は、選択的主観的特徴の重要性をますます強調している。
それにもかかわらず、与えられた参照画像内のコンテンツを正確に選択することは、特に画像中の類似した対象(例えば、2匹の異なる犬)を選択する際には、依然として課題となる。
いくつかの方法は、特定の要素を分離するためにテキストプロンプトまたはピクセルマスクを使用しようとする。
しかし、テキストプロンプトは特定の内容を正確に記述するのに不足することが多く、ピクセルマスクは高価であることが多い。
そこで本研究では,P3S-Diffusionについて紹介する。
P3S-Diffusionは最小コストラベル(例えば点)を利用して主観的画像を生成する。
微調整の間、これらの点から拡張されたベースマスクを生成することができ、追加のセグメンテーションモデルの必要性を回避できる。
マスクは、被写体表現の塗布と整合に使用される。
P3S拡散は多層状態注入により被験者の微細な特徴を保存する。
トレーニング改善のための注意一貫性損失によって強化された実験は、その優れた特徴保存と画像生成能力を示す。
関連論文リスト
- HARIS: Human-Like Attention for Reference Image Segmentation [5.808325471170541]
本稿では,Human-Like Attention機構を導入したHARISと呼ばれる参照画像分割手法を提案する。
提案手法は,最先端性能とゼロショット能力に優れる。
論文 参考訳(メタデータ) (2024-05-17T11:29:23Z) - Obtaining Favorable Layouts for Multiple Object Generation [50.616875565173274]
大規模なテキスト・ツー・イメージモデルでは、テキスト・プロンプトに基づいて高品質で多様な画像を生成することができる。
しかし、既存の最先端拡散モデルでは、複数の被写体を含む画像を生成する際に困難に直面している。
誘導原理に基づく新しい手法を提案し、拡散モデルが最初にレイアウトを提案し、次にレイアウトグリッドを並べ替えることを可能にする。
これは、提案したマスクに固執するようにクロスアテンションマップ(XAM)を強制し、潜在マップから私たちによって決定された新しい場所へピクセルを移動させることによって達成される。
論文 参考訳(メタデータ) (2024-05-01T18:07:48Z) - Mask-ControlNet: Higher-Quality Image Generation with An Additional Mask Prompt [34.880386778058075]
マスクプロンプトを導入し,Mask-ControlNetというフレームワークを開発した。
マスクは拡散モデルの制御性を高め、参照画像に対する高い忠実性を維持することを示す。
論文 参考訳(メタデータ) (2024-04-08T09:18:32Z) - Locate, Assign, Refine: Taming Customized Image Inpainting with Text-Subject Guidance [17.251982243534144]
LAR-Genは、マスクされたシーンイメージのシームレスなインペイントを可能にする、画像インペイントのための新しいアプローチである。
提案手法は,主観的アイデンティティの保存と局所的セマンティック・コヒーレンスを確保するために,粗大かつきめの手法を採用する。
実験と様々な応用シナリオは、アイデンティティ保存とテキストセマンティック一貫性の両方の観点から、LAR-Genの優位性を示している。
論文 参考訳(メタデータ) (2024-03-28T16:07:55Z) - Be Yourself: Bounded Attention for Multi-Subject Text-to-Image Generation [60.943159830780154]
本稿では,サンプリングプロセスにおける情報フローをバウンドする訓練不要な手法である境界注意法を紹介する。
提案手法は,与えられたプロンプトとレイアウトの整合性を向上する複数の主題の生成に有効であることを示す。
論文 参考訳(メタデータ) (2024-03-25T17:52:07Z) - Contrastive Prompts Improve Disentanglement in Text-to-Image Diffusion
Models [68.47333676663312]
テキスト・ツー・イメージ・モデルにおける画像要素のアンタングル化に有効な分類器フリーガイダンスの簡単な修正法を示す。
提案手法のキーとなる考え方は、最小限のトークンで異なる2つのプロンプトを持つ意図された要因を特徴づけることである。
我々は,(1)オブジェクトクラスで訓練されたドメイン固有拡散モデル,(2)テキスト・画像生成のための連続的なリグライクな制御,(3)ゼロショット画像エディタの性能向上の3つのシナリオにおいて,その利点を説明する。
論文 参考訳(メタデータ) (2024-02-21T03:01:17Z) - Differentiable Soft-Masked Attention [115.5770357189209]
Weakly Supervised Video Objectのタスクには,「識別可能なソフトマッシュアップ注意」が使用されている。
我々は、トランスフォーマーベースのトレーニングネットワークを開発したが、1つのアノテートフレームだけで、ビデオ上でのサイクル一貫性トレーニングの恩恵を受けることができる。
論文 参考訳(メタデータ) (2022-06-01T02:05:13Z) - GANSeg: Learning to Segment by Unsupervised Hierarchical Image
Generation [16.900404701997502]
本稿では,潜伏マスクに条件付き画像を生成するGANベースのアプローチを提案する。
このようなマスク条件の画像生成は、マスクを階層的に条件付ける際に忠実に学習できることを示す。
また、セグメンテーションネットワークをトレーニングするためのイメージマスクペアの生成も可能で、既存のベンチマークでは、最先端の教師なしセグメンテーションメソッドよりも優れています。
論文 参考訳(メタデータ) (2021-12-02T07:57:56Z) - Open-Vocabulary Instance Segmentation via Robust Cross-Modal
Pseudo-Labeling [61.03262873980619]
Open-vocabularyのインスタンスセグメンテーションは、マスクアノテーションなしで新しいクラスをセグメンテーションすることを目的としている。
本研究では,字幕内の単語の意味を画像中のオブジェクトマスクの視覚的特徴と整合させることで,擬似マスクの訓練を行うクロスモーダルな擬似ラベルフレームワークを提案する。
我々のフレームワークは、生徒の自己学習のための単語意味論を通じて、キャプションに新しいクラスをラベル付けすることができる。
論文 参考訳(メタデータ) (2021-11-24T18:50:47Z) - Wish You Were Here: Context-Aware Human Generation [100.51309746913512]
本稿では,既存の画像にオブジェクト,特に人間を挿入する新しい手法を提案する。
本手法では, 現場の他の人物のポーズを考慮し, まず, 新たな人物のセマンティックマップを生成する。
第2のネットワークは、複数の外観成分の仕様に基づいて、新規人物とそのブレンディングマスクの画素を描画する。
第3のネットワークは、対象者の顔と一致するように生成された顔を洗練する。
論文 参考訳(メタデータ) (2020-05-21T14:09:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。