論文の概要: Style Transfer to Calvin and Hobbes comics using Stable Diffusion
- arxiv url: http://arxiv.org/abs/2312.03993v1
- Date: Thu, 7 Dec 2023 02:21:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-08 16:28:33.834389
- Title: Style Transfer to Calvin and Hobbes comics using Stable Diffusion
- Title(参考訳): 安定拡散を用いたカルビン・ホッブズ漫画へのスタイル移行
- Authors: Sloke Shrestha, Sundar Sripada V. S., Asvin Venkataramanan
- Abstract要約: 本稿では,Calvin と Hobbes の漫画を含むデータセット上で,安定した拡散微調整を行うための旅を要約する。
目的は、任意の入力イメージをカルビンとホッブズのコミックスタイルに変換することである。
低ランク適応(LoRA)を用いて安定拡散v1.5を訓練し、微調整プロセスを効率的に高速化する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This project report summarizes our journey to perform stable diffusion
fine-tuning on a dataset containing Calvin and Hobbes comics. The purpose is to
convert any given input image into the comic style of Calvin and Hobbes,
essentially performing style transfer. We train stable-diffusion-v1.5 using Low
Rank Adaptation (LoRA) to efficiently speed up the fine-tuning process. The
diffusion itself is handled by a Variational Autoencoder (VAE), which is a
U-net. Our results were visually appealing for the amount of training time and
the quality of input data that went into training.
- Abstract(参考訳): 本プロジェクト報告では,calvin と hobbes comics を含むデータセット上で安定した拡散微調整を行うための旅をまとめる。
その目的は、任意の入力画像をカルビンとホッブズのコミックスタイルに変換し、基本的にはスタイル転送を行うことである。
低階適応(lora)を用いて安定拡散v1.5を訓練し,微調整プロセスの高速化を図る。
拡散自体は、U-netである変分オートエンコーダ(VAE)によって処理される。
その結果,学習時間と学習開始時の入力データの質を視覚的に評価した。
関連論文リスト
- Accelerate High-Quality Diffusion Models with Inner Loop Feedback [50.00066451431194]
内ループフィードバック (ILF) は拡散モデルの推論を高速化する新しい手法である。
ILFは、デノナイジングプロセスの将来の機能を予測するために、軽量モジュールをトレーニングする。
ILFは拡散変換器(DiT)とDiTベースのPixArt-alphaとPixArt-sigmaによるテキスト・ツー・画像生成の両方で高い性能を達成している。
論文 参考訳(メタデータ) (2025-01-22T18:59:58Z) - Unlocking Intrinsic Fairness in Stable Diffusion [42.746722760353414]
安定拡散は本質的に公平性を持ち、不偏出力を達成するためにアンロックできることが示される。
本稿では,安定拡散の本質的公正性を解き放つために,テキスト条件を乱す新しい手法を提案する。
本手法は,画像テキストのアライメントと画質を保ちながら,追加チューニングなしでバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-08-22T19:12:52Z) - Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。
本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。
モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文 参考訳(メタデータ) (2024-03-07T16:18:28Z) - CommonCanvas: An Open Diffusion Model Trained with Creative-Commons
Images [19.62509002853736]
我々はCreative-Commons-Lensed (CC) 画像のデータセットを組み立て、テキストから画像への生成モデルを訓練する。
我々は直感的な転写学習技術を用いて、CC画像と組み合わせた高品質な合成キャプションのセットを作成する。
我々は既存のSD2モデルのトレーニングに必要なLAION-2Bデータの3%しか必要としないが、同等の品質が得られるデータと計算効率のトレーニングレシピを開発した。
論文 参考訳(メタデータ) (2023-10-25T17:56:07Z) - Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。
AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文 参考訳(メタデータ) (2023-10-05T17:59:18Z) - Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。
本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。
我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文 参考訳(メタデータ) (2023-08-02T23:39:29Z) - Patch Diffusion: Faster and More Data-Efficient Training of Diffusion
Models [166.64847903649598]
汎用的なパッチワイドトレーニングフレームワークであるPatch Diffusionを提案する。
Patch Diffusionは、データ効率を改善しながら、トレーニング時間を大幅に削減する。
我々は最先端のベンチマークと一致して優れたFIDスコアを得る。
論文 参考訳(メタデータ) (2023-04-25T02:35:54Z) - Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style
Transfer [38.957512116073616]
我々は、追加の微調整や補助的なネットワークを必要としない拡散モデルに対して、ゼロショットのコントラスト損失を提案する。
本手法は,ゼロショット方式で,ソース画像と同一のセマンティックな内容の画像を生成できる。
論文 参考訳(メタデータ) (2023-03-15T13:47:02Z) - StyTr^2: Unbiased Image Style Transfer with Transformers [59.34108877969477]
イメージスタイル転送の目的は、オリジナルコンテンツを維持しながら、スタイル参照によってガイドされた芸術的特徴を持つ画像をレンダリングすることである。
従来のニューラルスタイルの転送法は通常バイアスを受けており、コンテントリークは、同じ参照画像でスタイル転送プロセスの何回かの実行によって観察することができる。
我々は、この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr2を提案する。
論文 参考訳(メタデータ) (2021-05-30T15:57:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。