論文の概要: Measuring Style Similarity in Diffusion Models
- arxiv url: http://arxiv.org/abs/2404.01292v1
- Date: Mon, 1 Apr 2024 17:58:30 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-03 21:16:45.288517
- Title: Measuring Style Similarity in Diffusion Models
- Title(参考訳): 拡散モデルにおけるスタイル類似性の測定
- Authors: Gowthami Somepalli, Anubhav Gupta, Kamal Gupta, Shramay Palta, Micah Goldblum, Jonas Geiping, Abhinav Shrivastava, Tom Goldstein,
- Abstract要約: 画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルが画像の主観的特性であるという洞察を用いてキュレートされた新しいデータセットで構成されている。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に対して、生成した画像のスタイルに使用できるスタイル属性記述子を抽出する手法を提案する。
- 参考スコア(独自算出の注目度): 118.22433042873136
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative models are now widely used by graphic designers and artists. Prior works have shown that these models remember and often replicate content from their training data during generation. Hence as their proliferation increases, it has become important to perform a database search to determine whether the properties of the image are attributable to specific training data, every time before a generated image is used for professional purposes. Existing tools for this purpose focus on retrieving images of similar semantic content. Meanwhile, many artists are concerned with style replication in text-to-image models. We present a framework for understanding and extracting style descriptors from images. Our framework comprises a new dataset curated using the insight that style is a subjective property of an image that captures complex yet meaningful interactions of factors including but not limited to colors, textures, shapes, etc. We also propose a method to extract style descriptors that can be used to attribute style of a generated image to the images used in the training dataset of a text-to-image model. We showcase promising results in various style retrieval tasks. We also quantitatively and qualitatively analyze style attribution and matching in the Stable Diffusion model. Code and artifacts are available at https://github.com/learn2phoenix/CSD.
- Abstract(参考訳): ジェネレーティブモデルは現在、グラフィックデザイナーやアーティストによって広く使用されている。
以前の研究では、これらのモデルが世代間のトレーニングデータからコンテンツを記憶し、しばしば複製していることが示されている。
したがって、その増殖が増加するにつれて、生成した画像が専門的な目的に使用されるたびに、画像の特性が特定のトレーニングデータに起因するかどうかを判断するために、データベース検索を行うことが重要になっている。
この目的のための既存のツールは、類似したセマンティックコンテンツのイメージを取得することに焦点を当てている。
一方、多くのアーティストはテキスト・ツー・イメージ・モデルにおけるスタイルの複製に関心を持っている。
画像からスタイル記述子を理解し抽出するためのフレームワークを提案する。
我々のフレームワークは、スタイルがイメージの主観的特性であり、色、テクスチャ、形状など、複雑な、しかし意味のある相互作用をキャプチャする、という洞察を用いて、キュレートされた新しいデータセットで構成されています。
また、テキスト・ツー・イメージ・モデルのトレーニングデータセットで使用される画像に、生成された画像のスタイルを属性付けるのに使用できるスタイル記述子を抽出する手法を提案する。
様々なスタイル検索タスクにおいて有望な結果を示す。
また、安定拡散モデルにおけるスタイル属性とマッチングを定量的に定性的に分析する。
コードとアーティファクトはhttps://github.com/learn2phoenix/CSDで入手できる。
関連論文リスト
- StyleBrush: Style Extraction and Transfer from a Single Image [19.652575295703485]
ビジュアルコンテンツのスティル化は、オリジナルの構造的特徴を保ちながら、ピクセルレベルで特定のスタイルパターンを追加することを目的としている。
本稿では,参照画像からスタイルを正確にキャプチャし,抽出したスタイルを他の入力ビジュアルコンテンツにブラシするStyleBrushを提案する。
論文 参考訳(メタデータ) (2024-08-18T14:27:20Z) - Reinforcing Pre-trained Models Using Counterfactual Images [54.26310919385808]
本稿では,言語誘導型生成対実画像を用いた分類モデル強化のための新しいフレームワークを提案する。
逆ファクト画像データセットを用いてモデルをテストすることにより、モデルの弱点を同定する。
我々は、分類モデルを微調整し強化するために、デファクトイメージを拡張データセットとして採用する。
論文 参考訳(メタデータ) (2024-06-19T08:07:14Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Style-Extracting Diffusion Models for Semi-Supervised Histopathology Segmentation [6.479933058008389]
スタイル抽出拡散モデルでは、下流タスクに有用な特徴のない画像を生成する。
本研究では,概念実証として自然画像データセット上での手法の有効性を示す。
患者間でのセグメンテーション結果の改善と性能変動の低減を図り, 得られた画像の付加価値を検証する。
論文 参考訳(メタデータ) (2024-03-21T14:36:59Z) - Evaluating Data Attribution for Text-to-Image Models [62.844382063780365]
我々は,既存の大規模モデルを与えられた模範オブジェクトやスタイルにチューニングする「カストミゼーション」手法による属性評価を行う。
私たちのキーとなる洞察は、これによって、構築によって模範にコンピュータ的に影響される合成画像を効率的に作成できるということです。
問題の本質的な不確実性を考慮することで、一連のトレーニング画像に対してソフトな属性スコアを割り当てることができる。
論文 参考訳(メタデータ) (2023-06-15T17:59:51Z) - Diffusion Art or Digital Forgery? Investigating Data Replication in
Diffusion Models [53.03978584040557]
生成した画像とトレーニングサンプルを比較し、コンテンツが複製されたことを検知する画像検索フレームワークについて検討する。
フレームワークをオックスフォード花、Celeb-A、ImageNet、LAIONなど複数のデータセットでトレーニングされた拡散モデルに適用することにより、トレーニングセットのサイズがコンテンツ複製の速度にどのように影響するかを議論する。
論文 参考訳(メタデータ) (2022-12-07T18:58:02Z) - Text-Guided Synthesis of Artistic Images with Retrieval-Augmented
Diffusion Models [12.676356746752894]
検索拡張拡散モデル(RDM)に基づく代替手法を提案する。
検索データベースを、特定の視覚スタイルの画像のみを含む、より専門的なデータベースに置き換える。
これにより、トレーニング後の一般的なトレーニングモデルに新たな方法が提供され、それによって特定の視覚スタイルが指定される。
論文 参考訳(メタデータ) (2022-07-26T16:56:51Z) - Generating More Pertinent Captions by Leveraging Semantics and Style on
Multi-Source Datasets [56.018551958004814]
本稿では,データソースの非一様結合をトレーニングすることで,流動的な記述を生成するタスクに対処する。
ノイズの多い画像とテキストのペアを持つ大規模データセットは、サブ最適の監視源を提供する。
本稿では,検索コンポーネントから抽出したスタイルトークンとキーワードを組み込むことにより,セマンティクスと記述スタイルを活用・分離することを提案する。
論文 参考訳(メタデータ) (2021-11-24T19:00:05Z) - Evaluating Contrastive Models for Instance-based Image Retrieval [6.393147386784114]
画像検索タスクにおけるコントラストモデルの評価を行う。
対照的な手法を用いてトレーニングされたモデルは、ImageNetラベルに基づいてトレーニングされたトレーニング済みベースラインとオンパー(およびパフォーマンス)を実行する。
論文 参考訳(メタデータ) (2021-04-30T12:05:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。