論文の概要: HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion
Models
- arxiv url: http://arxiv.org/abs/2312.00079v1
- Date: Thu, 30 Nov 2023 02:33:29 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-04 17:13:08.015614
- Title: HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion
Models
- Title(参考訳): HiFi Tuner:拡散モデルのための高忠実な主観駆動ファインタニング
- Authors: Zhonghao Wang, Wei Wei, Yang Zhao, Zhisheng Xiao, Mark
Hasegawa-Johnson, Humphrey Shi, Tingbo Hou
- Abstract要約: 我々は、パーソナライズされた画像生成におけるオブジェクトの外観保存を強化するために、HiFi Tunerという革新的なアルゴリズムを導入する。
主要な機能強化には、マスクガイダンスの利用、新しいパラメータ正規化手法、ステップワイドな主題表現の導入などがある。
提案手法を,テキスト操作による画像中の被写体置換という,新しい画像編集タスクに拡張する。
- 参考スコア(独自算出の注目度): 56.112302700630806
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper explores advancements in high-fidelity personalized image
generation through the utilization of pre-trained text-to-image diffusion
models. While previous approaches have made significant strides in generating
versatile scenes based on text descriptions and a few input images, challenges
persist in maintaining the subject fidelity within the generated images. In
this work, we introduce an innovative algorithm named HiFi Tuner to enhance the
appearance preservation of objects during personalized image generation. Our
proposed method employs a parameter-efficient fine-tuning framework, comprising
a denoising process and a pivotal inversion process. Key enhancements include
the utilization of mask guidance, a novel parameter regularization technique,
and the incorporation of step-wise subject representations to elevate the
sample fidelity. Additionally, we propose a reference-guided generation
approach that leverages the pivotal inversion of a reference image to mitigate
unwanted subject variations and artifacts. We further extend our method to a
novel image editing task: substituting the subject in an image through textual
manipulations. Experimental evaluations conducted on the DreamBooth dataset
using the Stable Diffusion model showcase promising results. Fine-tuning solely
on textual embeddings improves CLIP-T score by 3.6 points and improves DINO
score by 9.6 points over Textual Inversion. When fine-tuning all parameters,
HiFi Tuner improves CLIP-T score by 1.2 points and improves DINO score by 1.2
points over DreamBooth, establishing a new state of the art.
- Abstract(参考訳): 本稿では,事前学習したテキスト・画像拡散モデルを用いた高忠実度画像生成の進歩について検討する。
これまでのアプローチでは,テキスト記述や入力画像などに基づいて多彩なシーンを生成するという大きな進歩を遂げてきたが,生成画像内の主題忠実性を維持する上での課題が続いている。
本研究では,個人化画像生成におけるオブジェクトの外観保存性を高めるために,HiFi Tunerという革新的なアルゴリズムを導入する。
提案手法では,パラメータ効率のよい微調整フレームワークを用いて,デノナイズプロセスとピボットインバージョンプロセスを組み合わせた。
マスクガイダンスの利用、新しいパラメータ正規化手法、サンプルの忠実度を高めるためのステップワイドな対象表現の導入など、重要な機能強化がある。
さらに、参照画像のピボットインバージョンを利用して、不要な対象のバリエーションやアーティファクトを緩和する参照誘導生成手法を提案する。
さらに,提案手法を,テキスト操作による画像中の被写体置換という新しい画像編集タスクに拡張する。
安定拡散モデルを用いたdreamboothデータセット上での実験評価は有望な結果を示した。
テキスト埋め込みのみの微調整はCLIP-Tスコアを3.6ポイント改善し、DINOスコアを9.6ポイント改善する。
すべてのパラメータを微調整すると、HiFi TunerはCLIP-Tスコアを1.2ポイント改善し、DINOスコアを1.2ポイント改善し、新しい最先端技術を確立する。
関連論文リスト
- Pan-denoising: Guided Hyperspectral Image Denoising via Weighted Represent Coefficient Total Variation [20.240211073097758]
本稿では,高スペクトル画像(HSI)デノナイズのための新しいパラダイムを紹介し,これをテクスタイトパンデノナイズと呼ぶ。
パンクロマトニック(PAN)画像は、HSIと同様の構造やテクスチャを撮影するが、ノイズが少ないため、パンデノイングは従来のHSI復調法の内部情報モデリング以上の基盤構造や詳細を明らかにする可能性を秘めている。
合成および実世界のデータセットの実験では、PWRCTVはメトリクスと視覚的品質の点でいくつかの最先端の手法より優れていることが示されている。
論文 参考訳(メタデータ) (2024-07-08T16:05:56Z) - OrientDream: Streamlining Text-to-3D Generation with Explicit Orientation Control [66.03885917320189]
OrientDreamは、テキストプロンプトから効率よくマルチビューで一貫した3D生成のためのカメラ指向条件付きフレームワークである。
本戦略は,2次元テキスト・画像拡散モジュールの事前学習におけるカメラ配向条件付き機能の実装を強調する。
提案手法は,一貫したマルチビュー特性を持つ高品質なNeRFモデルを生成するだけでなく,既存手法よりも最適化速度が大幅に向上することを示した。
論文 参考訳(メタデータ) (2024-06-14T13:16:18Z) - ReNoise: Real Image Inversion Through Iterative Noising [62.96073631599749]
本研究では,操作数を増やすことなく,高い品質と操作率の逆転法を導入し,再現精度を向上する。
我々は,近年の高速化拡散モデルを含む様々なサンプリングアルゴリズムとモデルを用いて,Renoise手法の性能を評価する。
論文 参考訳(メタデータ) (2024-03-21T17:52:08Z) - DreamDrone: Text-to-Image Diffusion Models are Zero-shot Perpetual View Generators [56.994967294931286]
テキストプロンプトからフライスルーシーンを生成する新しいゼロショット・トレーニングフリーパイプラインであるDreamDroneを紹介する。
我々は、高品質な画像生成と非有界な一般化能力のために、事前訓練されたテキスト・画像拡散モデルの中間潜時符号を明示的に修正することを提唱する。
論文 参考訳(メタデータ) (2023-12-14T08:42:26Z) - Separate-and-Enhance: Compositional Finetuning for Text2Image Diffusion
Models [58.46926334842161]
この研究は、注意力の低いアクティベーションスコアとマスクオーバーラップに関連する問題を指摘し、このような不一致の根本的な理由を照らしている。
本稿では,物体マスクの重なりを低減し,注目度を最大化する2つの新しい目的,分離損失とエンハンス損失を提案する。
提案手法は従来のテスト時間適応手法と異なり,拡張性と一般化性を高める重要なパラメータの微調整に重点を置いている。
論文 参考訳(メタデータ) (2023-12-10T22:07:42Z) - HiFi-123: Towards High-fidelity One Image to 3D Content Generation [64.81863143986384]
HiFi-123は高忠実で多視点で一貫した3D生成のために設計された手法である。
本稿では,拡散型ゼロショットノベルビュー合成法の忠実度を大幅に向上する参照ガイド型新規ビュー拡張(RGNV)技術を提案する。
また,新たにRGSD(Reference-Guided State Distillation)を施行した。
論文 参考訳(メタデータ) (2023-10-10T16:14:20Z) - Reconstruct-and-Generate Diffusion Model for Detail-Preserving Image
Denoising [16.43285056788183]
再構成・生成拡散モデル(Reconstruct-and-Generate Diffusion Model, RnG)と呼ばれる新しい手法を提案する。
提案手法は, 再構成型復調ネットワークを利用して, 基礎となるクリーン信号の大半を復元する。
拡散アルゴリズムを用いて残留する高周波の詳細を生成し、視覚的品質を向上させる。
論文 参考訳(メタデータ) (2023-09-19T16:01:20Z) - HiFA: High-fidelity Text-to-3D Generation with Advanced Diffusion
Guidance [19.252300247300145]
本研究は,高品質なテキスト・ツー・3D生成を実現するための全体的サンプリングと平滑化手法を提案する。
テキスト・画像拡散モデルの潜時空間と画像空間における復調スコアを計算する。
単一段最適化において高品質なレンダリングを生成するため,我々はNeRF線に沿ったz座標の分散の正則化を提案する。
論文 参考訳(メタデータ) (2023-05-30T05:56:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。