論文の概要: Fine-Tuning Stable Diffusion XL for Stylistic Icon Generation: A Comparison of Caption Size
- arxiv url: http://arxiv.org/abs/2407.08513v1
- Date: Thu, 11 Jul 2024 13:55:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-12 17:19:55.931692
- Title: Fine-Tuning Stable Diffusion XL for Stylistic Icon Generation: A Comparison of Caption Size
- Title(参考訳): スティリスティックアイコン発生のための微調整安定拡散XL:カプセルサイズの比較
- Authors: Youssef Sultan, Jiangqin Ma, Yu-Ying Liao,
- Abstract要約: 安定拡散XLの微調整法について述べる。
また、“高品質”が何であるかを適切に定義することがいかに重要であるかも示します。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this paper, we show different fine-tuning methods for Stable Diffusion XL; this includes inference steps, and caption customization for each image to align with generating images in the style of a commercial 2D icon training set. We also show how important it is to properly define what "high-quality" really is especially for a commercial-use environment. As generative AI models continue to gain widespread acceptance and usage, there emerge many different ways to optimize and evaluate them for various applications. Specifically text-to-image models, such as Stable Diffusion XL and DALL-E 3 require distinct evaluation practices to effectively generate high-quality icons according to a specific style. Although some images that are generated based on a certain style may have a lower FID score (better), we show how this is not absolute in and of itself even for rasterized icons. While FID scores reflect the similarity of generated images to the overall training set, CLIP scores measure the alignment between generated images and their textual descriptions. We show how FID scores miss significant aspects, such as the minority of pixel differences that matter most in an icon, while CLIP scores result in misjudging the quality of icons. The CLIP model's understanding of "similarity" is shaped by its own training data; which does not account for feature variation in our style of choice. Our findings highlight the need for specialized evaluation metrics and fine-tuning approaches when generating high-quality commercial icons, potentially leading to more effective and tailored applications of text-to-image models in professional design contexts.
- Abstract(参考訳): 本稿では,安定拡散XLの様々な微調整方法を示す。これには,商業的な2Dアイコントレーニングセットのスタイルで画像を生成するために,各画像に対する推論ステップとキャプションのカスタマイズが含まれる。
また、特に商業利用環境において「高品質」が何であるかを適切に定義することがいかに重要であるかを示します。
生成型AIモデルは広く受け入れられ、利用され続けているため、さまざまなアプリケーションに対してそれらを最適化し、評価するさまざまな方法が出現する。
具体的には、Stable Diffusion XLやDALL-E 3のようなテキスト・ツー・イメージモデルでは、特定のスタイルに従って高品質なアイコンを効果的に生成するために、異なる評価プラクティスが必要である。
特定のスタイルに基づいて生成される画像の中には、FIDスコアが低いものもあるが、ラスタライズされたアイコンであっても、これが絶対ではないことを示す。
FIDスコアは生成された画像とトレーニングセット全体の類似性を反映するが、CLIPスコアは生成された画像とテキスト記述とのアライメントを測定する。
CLIPスコアはアイコンの品質を損なう結果となるのに対し、FIDスコアはアイコンで最も重要なピクセル差の少数派など、重要な側面を欠いていることを示す。
CLIPモデルの"類似性"に対する理解は、独自のトレーニングデータによって形作られています。
本研究は,高品質な商用アイコンを生成する際に,専門的な評価指標と微調整アプローチの必要性を強調し,プロフェッショナルなデザインコンテキストにおけるテキスト・ツー・イメージ・モデルのより効果的かつ適切な適用につながる可能性があることを示唆する。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Quality-Aware Image-Text Alignment for Real-World Image Quality Assessment [8.431867616409958]
No-Reference Image Quality Assessment (NR-IQA) は、高画質の参照画像が利用できない場合に、人間の知覚に合わせて画像品質を測定する方法に焦点を当てている。
最先端のNR-IQAアプローチの大部分における注釈付き平均オピニオンスコア(MOS)への依存は、そのスケーラビリティと実際のシナリオへの適用性を制限している。
ラベル付きMOSを必要としないCLIPベースの自己教師型意見認識手法であるQuariCLIPを提案する。
論文 参考訳(メタデータ) (2024-03-17T11:32:18Z) - CricaVPR: Cross-image Correlation-aware Representation Learning for Visual Place Recognition [73.51329037954866]
視覚的位置認識のための画像間相関認識を用いたロバストなグローバル表現手法を提案する。
本手法では,バッチ内の複数の画像の相関にアテンション機構を用いる。
本手法は,訓練時間を大幅に短縮し,最先端の手法よりも優れた性能を示す。
論文 参考訳(メタデータ) (2024-02-29T15:05:11Z) - User-Aware Prefix-Tuning is a Good Learner for Personalized Image
Captioning [35.211749514733846]
従来の画像キャプション方式は、ユーザの好みや特徴を無視することが多い。
既存のほとんどの手法は、メモリネットワークやトランスフォーマーによるユーザコンテキストの融合プロセスを強調している。
本稿では,ユーザコンテキストを利用したパーソナライズされた画像キャプションフレームワークを提案する。
論文 参考訳(メタデータ) (2023-12-08T02:08:00Z) - Diversified in-domain synthesis with efficient fine-tuning for few-shot
classification [64.86872227580866]
画像分類は,クラスごとのラベル付き例の小さなセットのみを用いて,画像分類器の学習を目的としている。
合成データを用いた数ショット学習における一般化問題に対処する新しいアプローチである DisEF を提案する。
提案手法を10種類のベンチマークで検証し,ベースラインを一貫して上回り,数ショット分類のための新しい最先端の手法を確立した。
論文 参考訳(メタデータ) (2023-12-05T17:18:09Z) - Cross-Image Attention for Zero-Shot Appearance Transfer [68.43651329067393]
画像間の意味的対応を暗黙的に確立するクロスイメージアテンション機構を導入する。
ノイズの多い潜在コードを操作する3つのメカニズムと、デノナイジングプロセスを通してモデルの内部表現を利用する。
実験により,本手法は多種多様な対象カテゴリに対して有効であり,形状,大きさ,視点の変動に頑健であることが示された。
論文 参考訳(メタデータ) (2023-11-06T18:33:24Z) - FaceCoresetNet: Differentiable Coresets for Face Set Recognition [16.879093388124964]
識別ディスクリプタは、所定の集合からの情報を集約する際の2つのポリシーのバランスをとる。
この作業は、微分可能なコアセット選択問題として、顔セット表現をフレーム化する。
我々は、IJB-BおよびIJB-Cデータセットに顔認証を設定するために、新しいSOTAを設定した。
論文 参考訳(メタデータ) (2023-08-27T11:38:42Z) - Improving Human-Object Interaction Detection via Virtual Image Learning [68.56682347374422]
人間-物体相互作用(Human-Object Interaction、HOI)は、人間と物体の相互作用を理解することを目的としている。
本稿では,仮想画像学習(Virtual Image Leaning, VIL)による不均衡分布の影響を軽減することを提案する。
ラベルからイメージへの新たなアプローチであるMultiple Steps Image Creation (MUSIC)が提案され、実際の画像と一貫した分布を持つ高品質なデータセットを作成する。
論文 参考訳(メタデータ) (2023-08-04T10:28:48Z) - Transformer-based Image Generation from Scene Graphs [11.443097632746763]
グラフ構造化シーン記述は、生成した画像の合成を制御するために、生成モデルで効率的に使用することができる。
従来のアプローチは、グラフ畳み込みネットワークと、レイアウト予測と画像生成のための逆法の組み合わせに基づいている。
グラフ情報の符号化にマルチヘッドアテンションを用いることにより,サンプルデータの品質が向上することを示す。
論文 参考訳(メタデータ) (2023-03-08T14:54:51Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z) - Hierarchical Text-Conditional Image Generation with CLIP Latents [20.476720970770128]
画像表現を明示的に生成することで、フォトリアリズムとキャプションの類似性が最小限に抑えられ、画像の多様性が向上することを示す。
画像表現に条件付けされたデコーダは、その意味とスタイルの両方を保存した画像のバリエーションを生成できる。
論文 参考訳(メタデータ) (2022-04-13T01:10:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。