論文の概要: NSYNC: Negative Synthetic Image Generation for Contrastive Training to Improve Stylized Text-To-Image Translation
- arxiv url: http://arxiv.org/abs/2511.01517v1
- Date: Mon, 03 Nov 2025 12:27:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-05 16:37:27.256841
- Title: NSYNC: Negative Synthetic Image Generation for Contrastive Training to Improve Stylized Text-To-Image Translation
- Title(参考訳): NSYNC:スティル化テキスト・トゥ・イメージ翻訳を改善するためのコントラストトレーニングのための負の合成画像生成
- Authors: Serkan Ozturk, Samet Hicsonmez, Pinar Duygulu,
- Abstract要約: 現在のテキスト条件付き画像生成手法は、現実的な画像を生成するが、特定のスタイルをキャプチャすることができない。
本稿では,大規模なテキスト・画像拡散モデルのスタイリゼーション機能を改善するための,新しいコントラスト学習フレームワークを提案する。
- 参考スコア(独自算出の注目度): 4.537050278022913
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Current text conditioned image generation methods output realistic looking images, but they fail to capture specific styles. Simply finetuning them on the target style datasets still struggles to grasp the style features. In this work, we present a novel contrastive learning framework to improve the stylization capability of large text-to-image diffusion models. Motivated by the astonishing advance in image generation models that makes synthetic data an intrinsic part of model training in various computer vision tasks, we exploit synthetic image generation in our approach. Usually, the generated synthetic data is dependent on the task, and most of the time it is used to enlarge the available real training dataset. With NSYNC, alternatively, we focus on generating negative synthetic sets to be used in a novel contrastive training scheme along with real positive images. In our proposed training setup, we forward negative data along with positive data and obtain negative and positive gradients, respectively. We then refine the positive gradient by subtracting its projection onto the negative gradient to get the orthogonal component, based on which the parameters are updated. This orthogonal component eliminates the trivial attributes that are present in both positive and negative data and directs the model towards capturing a more unique style. Experiments on various styles of painters and illustrators show that our approach improves the performance over the baseline methods both quantitatively and qualitatively. Our code is available at https://github.com/giddyyupp/NSYNC.
- Abstract(参考訳): 現在のテキスト条件付き画像生成手法は、現実的な画像を生成するが、特定のスタイルをキャプチャすることができない。
ターゲットスタイルのデータセットでそれらを微調整するだけでは、スタイル機能を理解するのに依然として苦労しています。
本研究では,大規模なテキスト・画像拡散モデルのスタイリゼーション機能を改善するための,新しいコントラスト学習フレームワークを提案する。
合成データを様々なコンピュータビジョンタスクにおけるモデルトレーニングの本質的な部分とする画像生成モデルの驚くべき進歩により,本手法では合成画像生成を利用する。
通常、生成された合成データはタスクに依存し、ほとんどの場合、利用可能な実際のトレーニングデータセットを拡大するために使用される。
NSYNCでは、新しい対照的なトレーニングスキームで使われる負の合成集合と実際の正のイメージを生成することに重点を置いている。
提案手法では, 正の値とともに負のデータを転送し, 負の値と正の値の勾配を求める。
次に、正の勾配を正の勾配に減らして正の勾配を洗練させ、そのパラメータを更新する直交成分を得る。
この直交成分は、正と負の両方のデータに存在する自明な属性を排除し、モデルにもっとユニークなスタイルを捉えるよう指示する。
画家やイラストレーターの様々なスタイルの実験により,本手法は,定量的かつ定性的に,ベースライン法よりも性能を向上することが示された。
私たちのコードはhttps://github.com/giddyyupp/NSYNC.comで公開されています。
関連論文リスト
- Data Attribution for Text-to-Image Models by Unlearning Synthesized Images [71.23012718682634]
テキスト・ツー・イメージ・モデルにおけるデータ帰属の目標は、新しい画像の生成に最も影響を与えるトレーニング画像を特定することである。
合成画像の非学習をシミュレートして効率的なデータ帰属法を提案する。
次に,学習過程の終了後に有意な損失偏差を伴う訓練画像を特定し,これらを影響力のあるものとしてラベル付けする。
論文 参考訳(メタデータ) (2024-06-13T17:59:44Z) - Is Synthetic Image Useful for Transfer Learning? An Investigation into Data Generation, Volume, and Utilization [62.157627519792946]
ブリッジドトランスファー(ブリッジドトランスファー)と呼ばれる新しいフレームワークを導入する。このフレームワークは、当初、トレーニング済みモデルの微調整に合成画像を使用し、転送性を向上させる。
合成画像と実画像のスタイルアライメントを改善するために,データセットスタイルの逆変換方式を提案する。
提案手法は10の異なるデータセットと5つの異なるモデルで評価され、一貫した改善が示されている。
論文 参考訳(メタデータ) (2024-03-28T22:25:05Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - Robust Contrastive Learning Using Negative Samples with Diminished
Semantics [23.38896719740166]
慎重に設計された負のサンプルを生成することで、コントラスト学習がより堅牢な表現を学習できることが示される。
我々は, テクスチャベースとパッチベースの拡張という2つの手法を開発し, 負のサンプルを生成する。
また,本手法と生成したテクスチャベースサンプルを分析し,特定のイメージネットクラスを分類するにはテクスチャの特徴が不可欠であることを示す。
論文 参考訳(メタデータ) (2021-10-27T05:38:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。