論文の概要: ArtiFade: Learning to Generate High-quality Subject from Blemished Images
- arxiv url: http://arxiv.org/abs/2409.03745v1
- Date: Thu, 5 Sep 2024 17:57:59 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-06 19:33:34.821411
- Title: ArtiFade: Learning to Generate High-quality Subject from Blemished Images
- Title(参考訳): ArtiFade: ブレンド画像から高品質な課題を生成する学習
- Authors: Shuya Yang, Shaozhe Hao, Yukang Cao, Kwan-Yee K. Wong,
- Abstract要約: ArtiFadeは、事前トレーニングされたテキスト-画像モデルの微調整を利用して、アーティファクトを削除する。
ArtiFadeはまた、拡散モデルに固有のオリジナルの生成機能の保存も保証している。
- 参考スコア(独自算出の注目度): 10.112125529627157
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Subject-driven text-to-image generation has witnessed remarkable advancements in its ability to learn and capture characteristics of a subject using only a limited number of images. However, existing methods commonly rely on high-quality images for training and may struggle to generate reasonable images when the input images are blemished by artifacts. This is primarily attributed to the inadequate capability of current techniques in distinguishing subject-related features from disruptive artifacts. In this paper, we introduce ArtiFade to tackle this issue and successfully generate high-quality artifact-free images from blemished datasets. Specifically, ArtiFade exploits fine-tuning of a pre-trained text-to-image model, aiming to remove artifacts. The elimination of artifacts is achieved by utilizing a specialized dataset that encompasses both unblemished images and their corresponding blemished counterparts during fine-tuning. ArtiFade also ensures the preservation of the original generative capabilities inherent within the diffusion model, thereby enhancing the overall performance of subject-driven methods in generating high-quality and artifact-free images. We further devise evaluation benchmarks tailored for this task. Through extensive qualitative and quantitative experiments, we demonstrate the generalizability of ArtiFade in effective artifact removal under both in-distribution and out-of-distribution scenarios.
- Abstract(参考訳): 被写体駆動のテキスト・ツー・イメージ生成は、限られた数の画像のみを用いて、被写体の特徴を学習し、捉える能力において、顕著な進歩をみせている。
しかし、既存の手法では、訓練に高品質な画像に頼っていることが多く、入力画像が人工物によってブレンドされる場合、適切な画像を生成するのに苦労する可能性がある。
これは主に、主観的特徴と破壊的アーティファクトを区別する現在のテクニックの不十分な能力に起因している。
本稿では,この問題を解決するためにArtiFadeを導入し,ブレンドデータセットから高品質なアーティファクトフリーな画像を生成する。
具体的には、ArtiFadeは、アーティファクトを削除することを目的として、トレーニング済みのテキスト・ツー・イメージモデルの微調整を利用する。
アーティファクトの除去は、微調整中に未処理の画像と対応するブレンド画像の両方を含む特別なデータセットを利用することによって達成される。
ArtiFadeはまた、拡散モデルに固有のオリジナルの生成能力の保存を保証し、高品質でアーティファクトのない画像を生成するために、被写体駆動方式の全体的なパフォーマンスを向上させる。
このタスクに適した評価ベンチマークをさらに考案する。
定性的かつ定量的な実験を通じて,ArtiFadeの分布内および分布外の両方のシナリオ下での効率的なアーティファクト除去における一般化可能性を示す。
関連論文リスト
- Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - ENTED: Enhanced Neural Texture Extraction and Distribution for
Reference-based Blind Face Restoration [51.205673783866146]
我々は,高品質でリアルな肖像画を復元することを目的とした,ブラインドフェイス修復のための新しいフレームワークであるENTEDを提案する。
劣化した入力画像と参照画像の間で高品質なテクスチャ特徴を伝達するために,テクスチャ抽出と分布の枠組みを利用する。
われわれのフレームワークにおけるStyleGANのようなアーキテクチャは、現実的な画像を生成するために高品質な潜伏符号を必要とする。
論文 参考訳(メタデータ) (2024-01-13T04:54:59Z) - Learning Subject-Aware Cropping by Outpainting Professional Photos [69.0772948657867]
本稿では,高品質な主観的作物を生産する要因を,プロのストックイメージから学習するための弱教師付きアプローチを提案する。
私たちの洞察は、ストックイメージのライブラリと、最新のトレーニング済みのテキスト-画像拡散モデルを組み合わせることです。
我々は、収穫された無作為のトレーニングペアの大規模なデータセットを自動的に生成して、収穫モデルをトレーニングすることができる。
論文 参考訳(メタデータ) (2023-12-19T11:57:54Z) - Knowledge-Aware Artifact Image Synthesis with LLM-Enhanced Prompting and
Multi-Source Supervision [5.517240672957627]
本稿では,失った歴史的物体を視覚的形状に正確に反映する,知識を意識した新しい人工物画像合成手法を提案する。
既存の手法と比較して,提案手法は文書に含まれる暗黙の細部や歴史的知識とよく一致した高品質なアーティファクト画像を生成する。
論文 参考訳(メタデータ) (2023-12-13T11:03:07Z) - Perceptual Artifacts Localization for Image Synthesis Tasks [59.638307505334076]
我々は10,168個の画像からなる新しいデータセットを導入し,それぞれに知覚的アーティファクトラベルを付加した。
提案したデータセットに基づいてトレーニングされたセグメンテーションモデルは、さまざまなタスクにまたがるアーティファクトを効果的にローカライズする。
生成した画像の知覚的アーティファクトをシームレスに修正する,革新的なズームイン・インペインティングパイプラインを提案する。
論文 参考訳(メタデータ) (2023-10-09T10:22:08Z) - MagiCapture: High-Resolution Multi-Concept Portrait Customization [34.131515004434846]
MagiCaptureは、高解像度のポートレート画像を生成するために、主題とスタイルの概念を統合するパーソナライズ方法である。
本稿では,この弱教師付き学習環境内での頑健な学習を支援する,補助的先行学習と組み合わせた注意再焦点損失について紹介する。
私たちのパイプラインには、非常に現実的なアウトプットの生成を保証するための、追加のプロセス後ステップも含まれています。
論文 参考訳(メタデータ) (2023-09-13T11:37:04Z) - Learning to Evaluate the Artness of AI-generated Images [64.48229009396186]
アートスコア(ArtScore)は、アーティストによる本物のアートワークと画像がどの程度似ているかを評価するために設計されたメトリクスである。
我々は、写真とアートワークの生成のために事前訓練されたモデルを採用し、一連の混合モデルを生み出した。
このデータセットはニューラルネットワークのトレーニングに使用され、任意の画像の定量化精度レベルを推定する方法を学ぶ。
論文 参考訳(メタデータ) (2023-05-08T17:58:27Z) - Language Does More Than Describe: On The Lack Of Figurative Speech in
Text-To-Image Models [63.545146807810305]
テキスト・ツー・イメージ拡散モデルでは、テキスト入力プロンプトから高品質な画像を生成することができる。
これらのモデルは、コンテンツベースのラベル付けプロトコルから収集されたテキストデータを用いて訓練されている。
本研究では,現在使用されているテキスト・画像拡散モデルのトレーニングに使用されている公開テキストデータの感情性,目的性,抽象化の程度を特徴付ける。
論文 参考訳(メタデータ) (2022-10-19T14:20:05Z) - Learning a Single Model with a Wide Range of Quality Factors for JPEG
Image Artifacts Removal [24.25688335628976]
ロスシー圧縮は、圧縮された画像にアーティファクトをもたらし、視覚的品質を低下させる。
本稿では,高度に堅牢な圧縮アーティファクト除去ネットワークを提案する。
提案するネットワークは,幅広い品質要因を扱うためにトレーニング可能な単一モデルアプローチである。
論文 参考訳(メタデータ) (2020-09-15T08:16:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。