Fugu-MT 論文翻訳(概要): Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models

論文の概要: Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models

arxiv url: http://arxiv.org/abs/2402.12004v2
Date: Thu, 12 Dec 2024 05:02:42 GMT
ステータス: 翻訳完了
システム内更新日: 2024-12-13 15:57:55.709177
Title: Direct Consistency Optimization for Robust Customization of Text-to-Image Diffusion Models
Title（参考訳）: テキスト・画像拡散モデルのロバストカスタマイズのための直接一貫性最適化
Authors: Kyungmin Lee, Sangkyung Kwak, Kihyuk Sohn, Jinwoo Shin,
Abstract要約: テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。本稿では,微調整モデルと事前学習モデルとの偏差を制御し,直接整合性最適化(Direct Consistency Optimization)と呼ばれる新たな微調整対象を提案する。提案手法は, 通常の微調整モデルとのマージに最適化したモデルよりも, 高速な忠実度と主観的忠実度が得られることを示す。
参考スコア（独自算出の注目度）: 67.68871360210208
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Text-to-image (T2I) diffusion models, when fine-tuned on a few personal images, can generate visuals with a high degree of consistency. However, such fine-tuned models are not robust; they often fail to compose with concepts of pretrained model or other fine-tuned models. To address this, we propose a novel fine-tuning objective, dubbed Direct Consistency Optimization, which controls the deviation between fine-tuning and pretrained models to retain the pretrained knowledge during fine-tuning. Through extensive experiments on subject and style customization, we demonstrate that our method positions itself on a superior Pareto frontier between subject (or style) consistency and image-text alignment over all previous baselines; it not only outperforms regular fine-tuning objective in image-text alignment, but also shows higher fidelity to the reference images than the method that fine-tunes with additional prior dataset. More importantly, the models fine-tuned with our method can be merged without interference, allowing us to generate custom subjects in a custom style by composing separately customized subject and style models. Notably, we show that our approach achieves better prompt fidelity and subject fidelity than those post-optimized for merging regular fine-tuned models.
Abstract（参考訳）: テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。しかし、そのような微調整モデルは堅牢ではなく、事前訓練されたモデルや他の微調整されたモデルの概念で構成できないことが多い。そこで本研究では, 微調整時の事前知識を維持するために, 微調整モデルと事前訓練モデルとの偏差を制御し, 直接整合最適化と呼ばれる新たな微調整目標を提案する。対象とスタイルのカスタマイズに関する広範な実験を通じて、我々の手法は、対象(またはスタイル)の整合性と画像-テキストの整合性の間に優れたパレートフロンティアを配置することを示し、画像-テクストアライメントにおいて通常の微調整目標を上回るだけでなく、追加の事前データセットで微調整を行う方法よりも、参照画像に対する忠実度が高いことを示す。さらに重要なことは、我々の方法で微調整されたモデルは干渉なくマージ可能であり、個別にカスタマイズされた主題とスタイルモデルを作成することで、カスタムなスタイルでカスタムな主題を生成することができる。特に,本手法は,通常の微調整モデルとのマージに最適化したモデルよりも,より迅速な忠実度と主観的忠実度が得られることを示す。

関連論文リスト

Finetuning-Free Personalization of Text to Image Generation via Hypernetworks [15.129799519953139]
被写体画像から直接LoRA適応重量を予測するHypernetworksによる微調整不要なパーソナライゼーションを提案する。提案手法はパーソナライズ性能を向上し,オープンカテゴリパーソナライズのためのスケーラブルで効果的な方向としてのハイパーネットワークの約束を強調する。
論文参考訳（メタデータ） (2025-11-05T03:31:33Z)
A Training-Free Style-aligned Image Generation with Scale-wise Autoregressive Model [11.426771898890998]
本稿では,スケールワイド自己回帰モデルを利用した学習自由なスタイル整列画像生成手法を提案する。提案手法は競合するアプローチに匹敵する品質を示し,スタイルアライメントを大幅に改善し,高速モデルよりも6倍高速な推論速度を実現する。
論文参考訳（メタデータ） (2025-04-08T15:39:25Z)
PrefPaint: Aligning Image Inpainting Diffusion Model with Human Preference [62.72779589895124]
画像インペイントのための拡散モデルと人間の審美基準との整合性を、強化学習フレームワークを用いて初めて試みる。我々は、人間の好みを付加した約51,000枚の画像からなるデータセットで報酬モデルを訓練する。画像拡張や3次元再構成などの下流タスクの塗装比較実験により, 提案手法の有効性が示された。
論文参考訳（メタデータ） (2024-10-29T11:49:39Z)
Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文参考訳（メタデータ） (2024-10-01T17:50:17Z)
Powerful and Flexible: Personalized Text-to-Image Generation via Reinforcement Learning [40.06403155373455]
個人化されたテキスト・画像生成のための新しい強化学習フレームワークを提案する。提案手法は、テキストアライメントを維持しながら、視覚的忠実度に大きな差で既存の最先端手法よりも優れている。
論文参考訳（メタデータ） (2024-07-09T08:11:53Z)
JeDi: Joint-Image Diffusion Models for Finetuning-Free Personalized Text-to-Image Generation [49.997839600988875]
既存のパーソナライズ手法は、ユーザのカスタムデータセット上でテキスト・ツー・イメージの基礎モデルを微調整することに依存している。ファインタニングフリーのパーソナライズモデルを学ぶための効果的な手法として,ジョイントイメージ拡散(jedi)を提案する。本モデルは,従来のファインタニングベースとファインタニングフリーのパーソナライゼーションベースの両方において,定量的かつ定性的に,高い品質を実現する。
論文参考訳（メタデータ） (2024-07-08T17:59:02Z)
PaRa: Personalizing Text-to-Image Diffusion via Parameter Rank Reduction [38.424899483761656]
PaRaはT2Iモデルパーソナライズのための効率的かつ効率的なランク削減手法である。我々のデザインは、新しい概念へのT2Iモデルの使用は、小さな世代空間を意味するという事実に動機づけられている。そこで,PaRaは単一/複数オブジェクト生成における既存のファインタニング手法の利点と,単一画像編集の利点を両立することを示す。
論文参考訳（メタデータ） (2024-06-09T04:51:51Z)
Information Theoretic Text-to-Image Alignment [49.396917351264655]
相互情報(MI)は、モデルアライメントのガイドに使用される。本手法は,自己教師型微調整を用いて,プロンプトと画像間のポイントワイド(MI)推定に依存する。解析の結果,本手法は最先端の手法よりも優れているが,MIを推定するにはT2Iモデル自体の事前学習されたデノナイジングネットワークが必要であることが示唆された。
論文参考訳（メタデータ） (2024-05-31T12:20:02Z)
DEADiff: An Efficient Stylization Diffusion Model with Disentangled Representations [64.43387739794531]
現在のエンコーダベースのアプローチは、スタイルの転送中にテキスト・ツー・イメージモデルのテキスト制御性を著しく損なう。この問題に対処するために、以下の2つの戦略を用いてDEADiffを紹介します。 DeAiffは、テキスト・ツー・イメージモデルに固有のテキスト制御性と、参照画像とスタイルの類似性との間の最適な視覚的スタイリング結果と最適なバランスを得る。
論文参考訳（メタデータ） (2024-03-11T17:35:23Z)
Training-Free Consistent Text-to-Image Generation [80.4814768762066]
テキスト・ツー・イメージ・モデルは様々なプロンプトで同じ主題を表現できる。既存のアプローチは、特定のユーザが提供する主題を記述する新しい単語を教えるためにモデルを微調整する。本研究では、事前学習モデルの内部アクティベーションを共有することによって、一貫した主題生成を可能にする、トレーニング不要なアプローチであるConsiStoryを提案する。
論文参考訳（メタデータ） (2024-02-05T18:42:34Z)
DreamDistribution: Prompt Distribution Learning for Text-to-Image Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文参考訳（メタデータ） (2023-12-21T12:11:00Z)
Orthogonal Adaptation for Modular Customization of Diffusion Models [39.62438974450659]
我々は、カスタマイズされたモデルを効率的にマージすることを目的として、Modular Customizationと呼ばれる新しい問題に対処する。直交適応(Orthogonal Adaptation, Orthogonal Adaptation)は,微調整時に相互にアクセスできないカスタマイズモデルを支援する手法である。提案手法は単純かつ汎用的であり,モデルアーキテクチャのほぼすべての最適化可能な重みに適用可能である。
論文参考訳（メタデータ） (2023-12-05T02:17:48Z)
LLM-grounded Diffusion: Enhancing Prompt Understanding of Text-to-Image Diffusion Models with Large Language Models [62.75006608940132]
本研究は,テキストから画像への拡散モデルにおいて,迅速な理解能力を高めることを提案する。提案手法は,新たな2段階プロセスにおいて,事前訓練された大規模言語モデルを用いてグラウンドド生成を行う。提案手法は,画像の正確な生成において,ベース拡散モデルといくつかの強いベースラインを著しく上回る。
論文参考訳（メタデータ） (2023-05-23T03:59:06Z)
If at First You Don't Succeed, Try, Try Again: Faithful Diffusion-based Text-to-Image Generation by Selection [53.320946030761796]
拡散ベースのテキスト・トゥ・イメージ(T2I)モデルは、テキスト・プロンプトへの忠実さを欠く可能性がある。大規模なT2I拡散モデルは通常想定されるよりも忠実であり、複雑なプロンプトに忠実な画像を生成することができることを示す。本稿では,テキストプロンプトの候補画像を生成するパイプラインを導入し,自動スコアリングシステムにより最適な画像を選択する。
論文参考訳（メタデータ） (2023-05-22T17:59:41Z)
Lafite2: Few-shot Text-to-Image Generation [132.14211027057766]
本稿では,画像のみのデータセットを用いたテキスト・画像生成モデルの事前学習手法を提案する。擬似テキスト特徴を合成する検索テーマ最適化手法を検討する。これは、数ショット、半教師あり、完全に教師された学習など、幅広い設定で有益である。
論文参考訳（メタデータ） (2022-10-25T16:22:23Z)
Implementing and Experimenting with Diffusion Models for Text-to-Image Generation [0.0]
DALL-E 2 と Imagen という2つのモデルでは、画像の単純なテキスト記述から高画質の画像を生成できることが示されている。テキスト・ツー・イメージのモデルは、トレーニングに必要な膨大な計算リソースと、インターネットから収集された巨大なデータセットを扱う必要がある。この論文は、これらのモデルが使用するさまざまなアプローチとテクニックをレビューし、それから、テキスト・ツー・イメージ・モデルの独自の実装を提案することで貢献する。
論文参考訳（メタデータ） (2022-09-22T12:03:33Z)
GLIDE: Towards Photorealistic Image Generation and Editing with Text-Guided Diffusion Models [16.786221846896108]
テキスト条件画像合成問題に対する拡散モデルについて検討し、2つの異なるガイダンス戦略を比較した。後者は、フォトリアリズムとキャプションの類似性の両方において、人間の評価者によって好まれており、しばしばフォトリアリスティックなサンプルを生成する。我々のモデルは、画像のインペイントを行うように微調整することができ、強力なテキスト駆動画像編集を可能にします。
論文参考訳（メタデータ） (2021-12-20T18:42:55Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。