論文の概要: Improving Long-Text Alignment for Text-to-Image Diffusion Models
- arxiv url: http://arxiv.org/abs/2410.11817v1
- Date: Tue, 15 Oct 2024 17:46:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-16 14:02:59.605779
- Title: Improving Long-Text Alignment for Text-to-Image Diffusion Models
- Title(参考訳): テキスト・画像拡散モデルにおける長文アライメントの改善
- Authors: Luping Liu, Chao Du, Tianyu Pang, Zehan Wang, Chongxuan Li, Dong Xu,
- Abstract要約: 長文処理のためのセグメントレベル符号化手法を含むLongAlignを提案する。
選好最適化のために、我々はCLIPに基づく選好モデルを微調整拡散モデルに適用する。
テキスト非関連部が微調整時の共通オーバーフィッティング問題に寄与していることが判明した。
- 参考スコア(独自算出の注目度): 50.91173337689504
- License:
- Abstract: The rapid advancement of text-to-image (T2I) diffusion models has enabled them to generate unprecedented results from given texts. However, as text inputs become longer, existing encoding methods like CLIP face limitations, and aligning the generated images with long texts becomes challenging. To tackle these issues, we propose LongAlign, which includes a segment-level encoding method for processing long texts and a decomposed preference optimization method for effective alignment training. For segment-level encoding, long texts are divided into multiple segments and processed separately. This method overcomes the maximum input length limits of pretrained encoding models. For preference optimization, we provide decomposed CLIP-based preference models to fine-tune diffusion models. Specifically, to utilize CLIP-based preference models for T2I alignment, we delve into their scoring mechanisms and find that the preference scores can be decomposed into two components: a text-relevant part that measures T2I alignment and a text-irrelevant part that assesses other visual aspects of human preference. Additionally, we find that the text-irrelevant part contributes to a common overfitting problem during fine-tuning. To address this, we propose a reweighting strategy that assigns different weights to these two components, thereby reducing overfitting and enhancing alignment. After fine-tuning $512 \times 512$ Stable Diffusion (SD) v1.5 for about 20 hours using our method, the fine-tuned SD outperforms stronger foundation models in T2I alignment, such as PixArt-$\alpha$ and Kandinsky v2.2. The code is available at https://github.com/luping-liu/LongAlign.
- Abstract(参考訳): テキスト・ツー・イメージ(T2I)拡散モデルの急速な進歩により、与えられたテキストから前例のない結果を生成することができた。
しかし、テキスト入力が長くなるにつれて、CLIPのような既存の符号化手法は制限に直面し、生成した画像を長いテキストで整列させるのが難しくなる。
これらの問題に対処するために,長文処理のためのセグメントレベル符号化法と,効率的なアライメントトレーニングのための分割された選好最適化法を含むLongAlignを提案する。
セグメントレベルの符号化では、長いテキストは複数のセグメントに分割され、別々に処理される。
この方法は、事前訓練された符号化モデルの最大入力長制限を克服する。
選好最適化のために、細管拡散モデルに対して分解されたCLIPベースの選好モデルを提供する。
具体的には、T2IアライメントのためのCLIPベースの選好モデルを活用するために、それらのスコアリング機構を調べ、T2Iアライメントを測定するテキスト関連部と、人間の選好の他の視覚的側面を評価するテキスト関連部という2つのコンポーネントに選好スコアを分解できることを見出した。
さらに,テキスト非関連部が微調整時の共通オーバーフィッティング問題に寄与していることが判明した。
そこで本稿では,これら2つのコンポーネントに異なる重みを割り当てる重み付け戦略を提案する。
512 \times 512$ Stable Diffusion (SD) v1.5を約20時間微調整した後、細調整されたSDはPixArt-$\alpha$やKandinsky v2.2のようなT2Iアライメントにおいてより強力な基礎モデルより優れている。
コードはhttps://github.com/luping-liu/LongAlign.comで公開されている。
関連論文リスト
- Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - UDiffText: A Unified Framework for High-quality Text Synthesis in
Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。
我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。
推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文 参考訳(メタデータ) (2023-12-08T07:47:46Z) - Paragraph-to-Image Generation with Information-Enriched Diffusion Model [67.9265336953134]
パラディフュージョン(英: ParaDiffusion)は、パラディフュージョンモデルである。
これは、大きな言語モデルの広範囲な意味理解能力を画像生成のタスクに移すことを念頭に置いている。
コードとデータセットは、長文アライメントに関するコミュニティの研究を促進するためにリリースされます。
論文 参考訳(メタデータ) (2023-11-24T05:17:01Z) - LRANet: Towards Accurate and Efficient Scene Text Detection with
Low-Rank Approximation Network [63.554061288184165]
低ランク近似に基づく新しいパラメータ化テキスト形状法を提案する。
異なるテキストの輪郭間の形状相関を探索することにより, 形状表現における一貫性, コンパクト性, 単純性, 頑健性を実現する。
我々はLRANetという名前の正確で効率的な任意の形状のテキスト検出器を実装した。
論文 参考訳(メタデータ) (2023-06-27T02:03:46Z) - SceneComposer: Any-Level Semantic Image Synthesis [80.55876413285587]
任意の精度のセマンティックレイアウトから条件付き画像合成のための新しいフレームワークを提案する。
このフレームワークは、形状情報のない最低レベルのテキスト・トゥ・イメージ(T2I)に自然に還元され、最高レベルのセグメンテーション・トゥ・イメージ(S2I)となる。
本稿では,この新たなセットアップの課題に対処する,新しいテクニックをいくつか紹介する。
論文 参考訳(メタデータ) (2022-11-21T18:59:05Z) - eDiffi: Text-to-Image Diffusion Models with an Ensemble of Expert
Denoisers [87.52504764677226]
大規模拡散に基づく生成モデルは、テキスト条件の高解像度画像合成においてブレークスルーをもたらした。
異なる段階合成に特化したテキスト・画像拡散モデルのアンサンブルを訓練する。
eDiffiと呼ばれる拡散モデルのアンサンブルは、同じ推論コストを維持しながらテキストアライメントを改善する。
論文 参考訳(メタデータ) (2022-11-02T17:43:04Z) - Language modeling via stochastic processes [30.796382023812022]
現代の言語モデルは高品質の短いテキストを生成することができるが、長いテキストを生成するときにはしばしばメランジェや不整合である。
自己教師付き学習における最近の研究は、モデルが対照的な学習を通して優れた潜在表現を学習できることを示唆している。
本稿では,時間制御と呼ばれる構成表現を活用する方法を提案する。
論文 参考訳(メタデータ) (2022-03-21T22:13:53Z) - Rationalizing Text Matching: Learning Sparse Alignments via Optimal
Transport [14.86310501896212]
本研究では,この選択的合理化アプローチをテキストマッチングに拡張する。
目標は、下流の予測の正当化として、トークンや文などのテキストを共同で選択し、調整することである。
我々のアプローチでは、入力間の最小コストアライメントを見つけるために最適なトランスポート(OT)を採用している。
論文 参考訳(メタデータ) (2020-05-27T01:20:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。