Fugu-MT 論文翻訳(概要): Style Transfer to Calvin and Hobbes comics using Stable Diffusion

論文の概要: Style Transfer to Calvin and Hobbes comics using Stable Diffusion

arxiv url: http://arxiv.org/abs/2312.03993v1
Date: Thu, 7 Dec 2023 02:21:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-12-08 16:28:33.834389
Title: Style Transfer to Calvin and Hobbes comics using Stable Diffusion
Title（参考訳）: 安定拡散を用いたカルビン・ホッブズ漫画へのスタイル移行
Authors: Sloke Shrestha, Sundar Sripada V. S., Asvin Venkataramanan
Abstract要約: 本稿では,Calvin と Hobbes の漫画を含むデータセット上で,安定した拡散微調整を行うための旅を要約する。目的は、任意の入力イメージをカルビンとホッブズのコミックスタイルに変換することである。低ランク適応(LoRA)を用いて安定拡散v1.5を訓練し、微調整プロセスを効率的に高速化する。
参考スコア（独自算出の注目度）: 0.0
License: http://creativecommons.org/licenses/by/4.0/
Abstract: This project report summarizes our journey to perform stable diffusion fine-tuning on a dataset containing Calvin and Hobbes comics. The purpose is to convert any given input image into the comic style of Calvin and Hobbes, essentially performing style transfer. We train stable-diffusion-v1.5 using Low Rank Adaptation (LoRA) to efficiently speed up the fine-tuning process. The diffusion itself is handled by a Variational Autoencoder (VAE), which is a U-net. Our results were visually appealing for the amount of training time and the quality of input data that went into training.
Abstract（参考訳）: 本プロジェクト報告では,calvin と hobbes comics を含むデータセット上で安定した拡散微調整を行うための旅をまとめる。その目的は、任意の入力画像をカルビンとホッブズのコミックスタイルに変換し、基本的にはスタイル転送を行うことである。低階適応(lora)を用いて安定拡散v1.5を訓練し,微調整プロセスの高速化を図る。拡散自体は、U-netである変分オートエンコーダ(VAE)によって処理される。その結果,学習時間と学習開始時の入力データの質を視覚的に評価した。

関連論文リスト

Accelerate High-Quality Diffusion Models with Inner Loop Feedback [50.00066451431194]
内ループフィードバック (ILF) は拡散モデルの推論を高速化する新しい手法である。 ILFは、デノナイジングプロセスの将来の機能を予測するために、軽量モジュールをトレーニングする。 ILFは拡散変換器(DiT)とDiTベースのPixArt-alphaとPixArt-sigmaによるテキスト・ツー・画像生成の両方で高い性能を達成している。
論文参考訳（メタデータ） (2025-01-22T18:59:58Z)
Sparse Repellency for Shielded Generation in Text-to-image Diffusion Models [29.083402085790016]
本稿では,事前学習した拡散モデルのサンプル軌跡を,参照集合外に落下する画像上に着陸させる手法を提案する。生成軌道全体にわたって拡散SDEに反発項を追加することでこれを実現できる。一般的な拡散モデルにSPELLを追加することで、FIDにわずかに影響を与えながら多様性が向上し、最近のトレーニングフリーの多様性手法よりも比較的優れた性能を発揮することを示す。
論文参考訳（メタデータ） (2024-10-08T13:26:32Z)
Unlocking Intrinsic Fairness in Stable Diffusion [42.746722760353414]
安定拡散は本質的に公平性を持ち、不偏出力を達成するためにアンロックできることが示される。本稿では,安定拡散の本質的公正性を解き放つために,テキスト条件を乱す新しい手法を提案する。本手法は,画像テキストのアライメントと画質を保ちながら,追加チューニングなしでバイアスを効果的に軽減する。
論文参考訳（メタデータ） (2024-08-22T19:12:52Z)
Improving GFlowNets for Text-to-Image Diffusion Alignment [48.42367859859971]
報酬を直接最大化するのではなく,比較的高い確率で高解像度画像を生成する手法を探索する。提案手法は,大規模テキスト・画像拡散モデルと報酬情報とを効果的に一致させることができる。
論文参考訳（メタデータ） (2024-06-02T06:36:46Z)
Pix2Gif: Motion-Guided Diffusion for GIF Generation [70.64240654310754]
画像からGIF(ビデオ)生成のための移動誘導拡散モデルPix2Gifを提案する。本研究では,2種類のプロンプトに条件付きソース画像の特徴を空間的に変換する動き誘導型ワープモジュールを提案する。モデルトレーニングの準備として、TGIFビデオキャプチャデータセットからコヒーレントな画像フレームを抽出し、精巧にデータをキュレートした。
論文参考訳（メタデータ） (2024-03-07T16:18:28Z)
CommonCanvas: An Open Diffusion Model Trained with Creative-Commons Images [19.62509002853736]
我々はCreative-Commons-Lensed (CC) 画像のデータセットを組み立て、テキストから画像への生成モデルを訓練する。我々は直感的な転写学習技術を用いて、CC画像と組み合わせた高品質な合成キャプションのセットを作成する。我々は既存のSD2モデルのトレーニングに必要なLAION-2Bデータの3%しか必要としないが、同等の品質が得られるデータと計算効率のトレーニングレシピを開発した。
論文参考訳（メタデータ） (2023-10-25T17:56:07Z)
Aligning Text-to-Image Diffusion Models with Reward Backpropagation [62.45086888512723]
本稿では,報酬勾配のエンドツーエンドのバックプロパゲーションを用いて,拡散モデルを下流の報酬関数に整合させる手法であるAlignPropを提案する。 AlignPropは、選択肢よりも少ないトレーニングステップでより高い報酬を得るが、概念的にはシンプルである。
論文参考訳（メタデータ） (2023-10-05T17:59:18Z)
Reverse Stable Diffusion: What prompt was used to generate this image? [73.10116197883303]
本研究では, 生成拡散モデルにより生成された画像に対して, 迅速な埋め込みを予測できる課題について検討する。本稿では,複数ラベルの語彙分類を目的とする共同学習フレームワークを提案する。我々はDiffusionDBデータセットの実験を行い、安定拡散によって生成された画像からテキストプロンプトを予測する。
論文参考訳（メタデータ） (2023-08-02T23:39:29Z)
Patch Diffusion: Faster and More Data-Efficient Training of Diffusion Models [166.64847903649598]
汎用的なパッチワイドトレーニングフレームワークであるPatch Diffusionを提案する。 Patch Diffusionは、データ効率を改善しながら、トレーニング時間を大幅に削減する。我々は最先端のベンチマークと一致して優れたFIDスコアを得る。
論文参考訳（メタデータ） (2023-04-25T02:35:54Z)
Zero-Shot Contrastive Loss for Text-Guided Diffusion Image Style Transfer [38.957512116073616]
我々は、追加の微調整や補助的なネットワークを必要としない拡散モデルに対して、ゼロショットのコントラスト損失を提案する。本手法は,ゼロショット方式で,ソース画像と同一のセマンティックな内容の画像を生成できる。
論文参考訳（メタデータ） (2023-03-15T13:47:02Z)
StyTr^2: Unbiased Image Style Transfer with Transformers [59.34108877969477]
イメージスタイル転送の目的は、オリジナルコンテンツを維持しながら、スタイル参照によってガイドされた芸術的特徴を持つ画像をレンダリングすることである。従来のニューラルスタイルの転送法は通常バイアスを受けており、コンテントリークは、同じ参照画像でスタイル転送プロセスの何回かの実行によって観察することができる。我々は、この重要な問題に対処するために、トランスフォーマーベースのアプローチ、すなわちStyTr2を提案する。
論文参考訳（メタデータ） (2021-05-30T15:57:09Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。