論文の概要: HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion
Models
- arxiv url: http://arxiv.org/abs/2312.00079v1
- Date: Thu, 30 Nov 2023 02:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:13:08.015614
- Title: HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion
Models
- Title(参考訳): HiFi Tuner:拡散モデルのための高忠実な主観駆動ファインタニング
- Authors: Zhonghao Wang, Wei Wei, Yang Zhao, Zhisheng Xiao, Mark
Hasegawa-Johnson, Humphrey Shi, Tingbo Hou
- Abstract要約: 我々は、パーソナライズされた画像生成におけるオブジェクトの外観保存を強化するために、HiFi Tunerという革新的なアルゴリズムを導入する。
主要な機能強化には、マスクガイダンスの利用、新しいパラメータ正規化手法、ステップワイドな主題表現の導入などがある。
提案手法を,テキスト操作による画像中の被写体置換という,新しい画像編集タスクに拡張する。
- 参考スコア(独自算出の注目度): 56.112302700630806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores advancements in high-fidelity personalized image
generation through the utilization of pre-trained text-to-image diffusion
models. While previous approaches have made significant strides in generating
versatile scenes based on text descriptions and a few input images, challenges
persist in maintaining the subject fidelity within the generated images. In
this work, we introduce an innovative algorithm named HiFi Tuner to enhance the
appearance preservation of objects during personalized image generation. Our
proposed method employs a parameter-efficient fine-tuning framework, comprising
a denoising process and a pivotal inversion process. Key enhancements include
the utilization of mask guidance, a novel parameter regularization technique,
and the incorporation of step-wise subject representations to elevate the
sample fidelity. Additionally, we propose a reference-guided generation
approach that leverages the pivotal inversion of a reference image to mitigate
unwanted subject variations and artifacts. We further extend our method to a
novel image editing task: substituting the subject in an image through textual
manipulations. Experimental evaluations conducted on the DreamBooth dataset
using the Stable Diffusion model showcase promising results. Fine-tuning solely
on textual embeddings improves CLIP-T score by 3.6 points and improves DINO
score by 9.6 points over Textual Inversion. When fine-tuning all parameters,
HiFi Tuner improves CLIP-T score by 1.2 points and improves DINO score by 1.2
points over DreamBooth, establishing a new state of the art.
- Abstract(参考訳): 本稿では,事前学習したテキスト・画像拡散モデルを用いた高忠実度画像生成の進歩について検討する。
これまでのアプローチでは,テキスト記述や入力画像などに基づいて多彩なシーンを生成するという大きな進歩を遂げてきたが,生成画像内の主題忠実性を維持する上での課題が続いている。
本研究では,個人化画像生成におけるオブジェクトの外観保存性を高めるために,HiFi Tunerという革新的なアルゴリズムを導入する。
提案手法では,パラメータ効率のよい微調整フレームワークを用いて,デノナイズプロセスとピボットインバージョンプロセスを組み合わせた。
マスクガイダンスの利用、新しいパラメータ正規化手法、サンプルの忠実度を高めるためのステップワイドな対象表現の導入など、重要な機能強化がある。
さらに、参照画像のピボットインバージョンを利用して、不要な対象のバリエーションやアーティファクトを緩和する参照誘導生成手法を提案する。
さらに,提案手法を,テキスト操作による画像中の被写体置換という新しい画像編集タスクに拡張する。
安定拡散モデルを用いたdreamboothデータセット上での実験評価は有望な結果を示した。
テキスト埋め込みのみの微調整はCLIP-Tスコアを3.6ポイント改善し、DINOスコアを9.6ポイント改善する。
すべてのパラメータを微調整すると、HiFi TunerはCLIP-Tスコアを1.2ポイント改善し、DINOスコアを1.2ポイント改善し、新しい最先端技術を確立する。
関連論文リスト
- Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - DiffiT: Diffusion Vision Transformers for Image Generation [94.50195596375316]
Diffusion Vision Transformers (DiffiT) はU字型エンコーダとデコーダを備えたハイブリッド階層アーキテクチャである。
DiffiTは、高忠実度画像を生成するのに驚くほど効果的です。
潜在領域では、DiffiTはImageNet-256データセットで1.73の新しいSOTA FIDスコアを達成している。
論文 参考訳(メタデータ) (2023-12-04T18:57:01Z) - InvertAvatar: Incremental GAN Inversion for Generalized Head Avatars [39.84321605007352]
本稿では,複数フレームからの忠実度向上を目的としたアルゴリズムを用いて,アバター復元性能を向上させる新しいフレームワークを提案する。
本アーキテクチャでは,画素対応画像-画像変換を重要視し,観測空間と標準空間の対応を学習する必要性を緩和する。
提案手法は,1ショットと数ショットのアバターアニメーションタスクにおける最先端の性能を示す。
論文 参考訳(メタデータ) (2023-12-03T18:59:15Z) - HiFi-123: Towards High-fidelity One Image to 3D Content Generation [68.41847860194201]
高速かつ多視点で一貫した3次元生成が可能なHiFi-123を提案する。
コントリビューションはまず,参照誘導型新規ビューエンハンスメント技術を提案する。
第2に, 新規な視点向上に乗じて, 新たな基準誘導型蒸留損失を提示する。
論文 参考訳(メタデータ) (2023-10-10T16:14:20Z) - Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image
Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。
提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。
拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-09-19T16:01:20Z) - HiFA: High-fidelity Text-to-3D Generation with Advanced Diffusion
Guidance [19.252300247300145]
本研究は,高品質なテキスト・ツー・3D生成を実現するための全体的サンプリングと平滑化手法を提案する。
テキスト・画像拡散モデルの潜時空間と画像空間における復調スコアを計算する。
単一段最適化において高品質なレンダリングを生成するため,我々はNeRF線に沿ったz座標の分散の正則化を提案する。
論文 参考訳(メタデータ) (2023-05-30T05:56:58Z) - Semantic Image Synthesis via Diffusion Models [159.4285444680301]
Denoising Diffusion Probabilistic Models (DDPM) は様々な画像生成タスクにおいて顕著な成功を収めた。
セマンティック画像合成に関する最近の研究は、主に「GAN(Generative Adversarial Nets)」に追従している。
論文 参考訳(メタデータ) (2022-06-30T18:31:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。