論文の概要: Fine-Tuning InstructPix2Pix for Advanced Image Colorization
- arxiv url: http://arxiv.org/abs/2312.04780v1
- Date: Fri, 8 Dec 2023 01:36:49 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-11 16:36:48.598999
- Title: Fine-Tuning InstructPix2Pix for Advanced Image Colorization
- Title(参考訳): 高度なカラー化のための微調整instructpix2pix
- Authors: Zifeng An, Zijing Xu, Eric Fan, Qi Cao
- Abstract要約: 本稿では,InstructPix2Pixモデルの微調整によるヒト画像のカラー化手法を提案する。
IMDB-WIKIデータセットを用いてモデルを微調整し、ChatGPTが生成する多様なカラー化プロンプトと白黒画像をペアリングする。
微調整後,本モデルでは,元となるInstructPix2Pixモデルを定量的に比較した。
- 参考スコア(独自算出の注目度): 3.4975669723257035
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper presents a novel approach to human image colorization by
fine-tuning the InstructPix2Pix model, which integrates a language model
(GPT-3) with a text-to-image model (Stable Diffusion). Despite the original
InstructPix2Pix model's proficiency in editing images based on textual
instructions, it exhibits limitations in the focused domain of colorization. To
address this, we fine-tuned the model using the IMDB-WIKI dataset, pairing
black-and-white images with a diverse set of colorization prompts generated by
ChatGPT. This paper contributes by (1) applying fine-tuning techniques to
stable diffusion models specifically for colorization tasks, and (2) employing
generative models to create varied conditioning prompts. After finetuning, our
model outperforms the original InstructPix2Pix model on multiple metrics
quantitatively, and we produce more realistically colored images qualitatively.
The code for this project is provided on the GitHub Repository
https://github.com/AllenAnZifeng/DeepLearning282.
- Abstract(参考訳): 本稿では,言語モデル (GPT-3) とテキスト・ツー・イメージモデル (Stable Diffusion) を統合した InstructPix2Pix モデルを微調整することで,人間の画像のカラー化を実現する手法を提案する。
オリジナルのInstructPix2Pixモデルは、テキスト命令に基づいて画像を編集する能力があるにもかかわらず、色付けの焦点領域に制限がある。
これを解決するため, IMDB-WIKIデータセットを用いてモデルを微調整し, ChatGPT が生成する多彩なカラー化プロンプトと白黒画像のペアリングを行った。
本稿では,(1)着色作業に特化した安定拡散モデルに微調整技術を適用し,(2)生成モデルを用いて様々な条件付けプロンプトを生成する。
微調整後,本モデルでは,元となるInstructPix2Pixモデルよりも定量的に性能を向上し,よりリアルな色の画像を質的に生成する。
プロジェクトのコードはGitHub Repository https://github.com/AllenAnZifeng/DeepLearning282で公開されている。
関連論文リスト
- Image Regeneration: Evaluating Text-to-Image Model via Generating Identical Image with Multimodal Large Language Models [54.052963634384945]
画像再生タスクを導入し,テキスト・ツー・イメージ・モデルの評価を行う。
我々はGPT4Vを用いて参照画像とT2Iモデルのテキスト入力のギャップを埋める。
また、生成した画像の品質を高めるために、ImageRepainterフレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-14T13:52:43Z) - ColorPeel: Color Prompt Learning with Diffusion Models via Color and Shape Disentanglement [20.45850285936787]
ユーザが選択した色に合わせて、特定の色プロンプトを学習することを提案する。
我々の手法はColorPeelと呼ばれ、T2Iモデルが新しいカラープロンプトを剥がすのに役立ちます。
本研究は,T2Iモデルの精度と汎用性向上に向けた重要な一歩である。
論文 参考訳(メタデータ) (2024-07-09T19:26:34Z) - Automatic Controllable Colorization via Imagination [55.489416987587305]
本稿では,反復的な編集と修正が可能な自動色付けフレームワークを提案する。
グレースケール画像内のコンテンツを理解することにより、トレーニング済みの画像生成モデルを用いて、同じコンテンツを含む複数の画像を生成する。
これらの画像は、人間の専門家の過程を模倣して、色付けの参考となる。
論文 参考訳(メタデータ) (2024-04-08T16:46:07Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - ColorizeDiffusion: Adjustable Sketch Colorization with Reference Image and Text [5.675944597452309]
事前学習したCLIP画像エンコーダの異なる画像トークンを利用した画像誘導潜時拡散モデルの2つのバリエーションを紹介する。
重み付きテキスト入力を用いて結果の逐次的調整を行うための,対応する操作手法を提案する。
論文 参考訳(メタデータ) (2024-01-02T22:46:12Z) - Kandinsky: an Improved Text-to-Image Synthesis with Image Prior and
Latent Diffusion [50.59261592343479]
本稿では、潜伏拡散アーキテクチャの新しい探索であるKandinsky1を紹介する。
提案したモデルは、CLIPのイメージ埋め込みにテキスト埋め込みをマッピングするために別々に訓練されている。
また,テキスト・ツー・イメージ生成,画像融合,テキスト・画像融合,画像のバリエーション生成,テキスト・インペイント/アウトペイントなど,多様な生成モードをサポートするユーザフレンドリーなデモシステムも展開した。
論文 参考訳(メタデータ) (2023-10-05T12:29:41Z) - Language-based Photo Color Adjustment for Graphic Designs [38.43984897069872]
画像のリカラー化のための対話型言語ベースのアプローチを提案する。
本モデルでは,ソース色と対象領域を予測し,与えられた言語に基づく指示に基づいて,対象領域をソース色で再色することができる。
論文 参考訳(メタデータ) (2023-08-06T08:53:49Z) - LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image
Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。
提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。
提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文 参考訳(メタデータ) (2023-05-23T03:59:06Z) - Improved Diffusion-based Image Colorization via Piggybacked Models [19.807766482434563]
既存の強力なT2I拡散モデルに基づく色付けモデルを提案する。
拡散誘導器は、潜伏拡散モデルの事前訓練された重みを組み込むように設計されている。
次に、輝度認識VQVAEは、所定のグレースケール画像に画素完全アライメントされた色付き結果を生成する。
論文 参考訳(メタデータ) (2023-04-21T16:23:24Z) - InstructPix2Pix: Learning to Follow Image Editing Instructions [103.77092910685764]
人間の指示から画像を編集する手法を提案する。
入力画像とモデルに何をすべきかを指示する命令が与えられたら、我々のモデルはこれらの命令に従って画像を編集します。
入力画像と書き起こしの多様なコレクションに対して、魅力的な編集結果を示す。
論文 参考訳(メタデータ) (2022-11-17T18:58:43Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。