論文の概要: PatchDPO: Patch-level DPO for Finetuning-free Personalized Image Generation
- arxiv url: http://arxiv.org/abs/2412.03177v1
- Date: Wed, 04 Dec 2024 09:59:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-05 15:08:12.138610
- Title: PatchDPO: Patch-level DPO for Finetuning-free Personalized Image Generation
- Title(参考訳): PatchDPO: ファインタニング不要なパーソナライズド画像生成のためのパッチレベルDPO
- Authors: Qihan Huang, Long Chan, Jinlong Liu, Wanggui He, Hao Jiang, Mingli Song, Jie Song,
- Abstract要約: ファインタニングのないパーソナライズされた画像生成は、テストタイムの微調整なしにカスタマイズされた画像を合成することができる。
本研究は,各画像内の画像パッチの品質を推定し,それに基づいてモデルをトレーニングするPatchDPOを提案する。
実験の結果,PatchDPOは複数の事前学習されたパーソナライズされた生成モデルの性能を著しく向上させることがわかった。
- 参考スコア(独自算出の注目度): 34.528256332657406
- License:
- Abstract: Finetuning-free personalized image generation can synthesize customized images without test-time finetuning, attracting wide research interest owing to its high efficiency. Current finetuning-free methods simply adopt a single training stage with a simple image reconstruction task, and they typically generate low-quality images inconsistent with the reference images during test-time. To mitigate this problem, inspired by the recent DPO (i.e., direct preference optimization) technique, this work proposes an additional training stage to improve the pre-trained personalized generation models. However, traditional DPO only determines the overall superiority or inferiority of two samples, which is not suitable for personalized image generation because the generated images are commonly inconsistent with the reference images only in some local image patches. To tackle this problem, this work proposes PatchDPO that estimates the quality of image patches within each generated image and accordingly trains the model. To this end, PatchDPO first leverages the pre-trained vision model with a proposed self-supervised training method to estimate the patch quality. Next, PatchDPO adopts a weighted training approach to train the model with the estimated patch quality, which rewards the image patches with high quality while penalizing the image patches with low quality. Experiment results demonstrate that PatchDPO significantly improves the performance of multiple pre-trained personalized generation models, and achieves state-of-the-art performance on both single-object and multi-object personalized image generation. Our code is available at https://github.com/hqhQAQ/PatchDPO.
- Abstract(参考訳): ファインタニングのないパーソナライズされた画像生成は、テストタイムの微調整なしにカスタマイズされた画像を合成することができる。
現在のファインタニングフリーな手法は、単純な画像再構成タスクで単一のトレーニングステージを採用するだけで、テスト時間中に基準画像と不整合な低品質画像を生成するのが一般的である。
この問題を緩和するために、近年のDPO(direct preference optimization)技術に触発された本研究では、事前訓練されたパーソナライズされた生成モデルを改善するための追加のトレーニングステージを提案する。
しかし、従来のDPOは2つのサンプルの全体的な優越性や劣性のみを判断するが、これはパーソナライズされた画像生成には適さない。
そこで本研究では,各画像中の画像パッチの品質を推定し,それに基づいてモデルをトレーニングするPatchDPOを提案する。
この目的のために、PatchDPOはまず、事前学習されたビジョンモデルと自己教師付きトレーニング手法を用いて、パッチの品質を推定する。
次に、PatchDPOは、予測されたパッチ品質でモデルをトレーニングするための重み付けされたトレーニングアプローチを採用する。
実験結果から,PatchDPOは複数の事前学習されたパーソナライズされた生成モデルの性能を著しく向上させ,単一オブジェクトと複数オブジェクトのパーソナライズされた画像生成において最先端のパフォーマンスを達成することが示された。
私たちのコードはhttps://github.com/hqhQAQ/PatchDPOで公開されています。
関連論文リスト
- JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。
ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。
本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文 参考訳(メタデータ) (2024-07-08T17:59:02Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - Patch Gradient Descent: Training Neural Networks on Very Large Images [13.969180905165533]
大規模画像上で既存のCNNアーキテクチャを学習するためのパッチグラディエントDescent(PatchGD)を提案する。
PatchGDは、画像全体の勾配ベースの更新を一度に実行する代わりに、画像の小さな部分のみでモデル更新を行うことで、優れたソリューションを実現することができる、という仮説に基づいている。
評価の結果,PatchGDは大きな画像を扱う際の標準勾配差法よりも安定かつ効率的であることがわかった。
論文 参考訳(メタデータ) (2023-01-31T18:04:35Z) - FewGAN: Generating from the Joint Distribution of a Few Images [95.6635227371479]
本稿では,新しい,高品質で多様な画像を生成するための生成モデルFewGANを紹介する。
FewGANは、第1の粗いスケールで量子化を適用した階層的なパッチGANであり、その後、より微細なスケールで残った完全畳み込みGANのピラミッドが続く。
大規模な実験では、FewGANは定量的にも定性的にも基線より優れていることが示されている。
論文 参考訳(メタデータ) (2022-07-18T07:11:28Z) - A Hierarchical Transformation-Discriminating Generative Model for Few
Shot Anomaly Detection [93.38607559281601]
各トレーニングイメージのマルチスケールパッチ分布をキャプチャする階層的生成モデルを開発した。
この異常スコアは、スケール及び画像領域にわたる正しい変換のパッチベースの投票を集約して得られる。
論文 参考訳(メタデータ) (2021-04-29T17:49:48Z) - Drop the GAN: In Defense of Patches Nearest Neighbors as Single Image
Generative Models [17.823089978609843]
これらのタスクはすべて、数秒以内に、統合された驚くほど単純なフレームワークで、トレーニングなしで実行可能であることを示す。
最初は粗い推測から始まり、その後、パッチアレスト近傍のサーチを使って細かな細かな細部を精査する。
これにより、GANよりも高速でランダムな新規画像を生成することができます。
論文 参考訳(メタデータ) (2021-03-29T12:20:46Z) - Perceptual Image Restoration with High-Quality Priori and Degradation
Learning [28.93489249639681]
本モデルは,復元画像と劣化画像の類似度を測定するのに有効であることを示す。
同時修復・拡張フレームワークは,実世界の複雑な分解型によく一般化する。
論文 参考訳(メタデータ) (2021-03-04T13:19:50Z) - The Power of Triply Complementary Priors for Image Compressive Sensing [89.14144796591685]
本稿では,一対の相補的な旅先を含むLRD画像モデルを提案する。
次に、画像CSのためのRDモデルに基づく新しいハイブリッド・プラグイン・アンド・プレイ・フレームワークを提案する。
そこで,提案したH-based image CS問題の解法として,単純で効果的なアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-05-16T08:17:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。