Fugu-MT 論文翻訳(概要): Enhancing Diffusion Models with Text-Encoder Reinforcement Learning

論文の概要: Enhancing Diffusion Models with Text-Encoder Reinforcement Learning

arxiv url: http://arxiv.org/abs/2311.15657v1
Date: Mon, 27 Nov 2023 09:39:45 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-28 16:28:03.235789
Title: Enhancing Diffusion Models with Text-Encoder Reinforcement Learning
Title（参考訳）: テキストエンコーダ強化学習による拡散モデルの強化
Authors: Chaofeng Chen, Annan Wang, Haoning Wu, Liang Liao, Wenxiu Sun, Qiong Yan, Weisi Lin
Abstract要約: テキストから画像への拡散モデルは通常、ログのような目的を最適化するために訓練される。近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。我々は、強化学習によってテキストエンコーダを微調整することにより、結果のテキストイメージアライメントを強化することができることを示した。
参考スコア（独自算出の注目度）: 66.59513694243908
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Text-to-image diffusion models are typically trained to optimize the log-likelihood objective, which presents challenges in meeting specific requirements for downstream tasks, such as image aesthetics and image-text alignment. Recent research addresses this issue by refining the diffusion U-Net using human rewards through reinforcement learning or direct backpropagation. However, many of them overlook the importance of the text encoder, which is typically pretrained and fixed during training. In this paper, we demonstrate that by finetuning the text encoder through reinforcement learning, we can enhance the text-image alignment of the results, thereby improving the visual quality. Our primary motivation comes from the observation that the current text encoder is suboptimal, often requiring careful prompt adjustment. While fine-tuning the U-Net can partially improve performance, it remains suffering from the suboptimal text encoder. Therefore, we propose to use reinforcement learning with low-rank adaptation to finetune the text encoder based on task-specific rewards, referred as \textbf{TexForce}. We first show that finetuning the text encoder can improve the performance of diffusion models. Then, we illustrate that TexForce can be simply combined with existing U-Net finetuned models to get much better results without additional training. Finally, we showcase the adaptability of our method in diverse applications, including the generation of high-quality face and hand images.
Abstract（参考訳）: テキストから画像への拡散モデルは、通常、画像美学や画像テキストアライメントといった下流タスクの特定の要求を満たす際の課題を示すログのような目的を最適化するために訓練される。近年の研究では、強化学習や直接バックプロパゲーションを通じて人間の報酬を用いて拡散U-Netを精製することでこの問題に対処している。しかし、多くはテキストエンコーダの重要性を見過ごしており、これは通常、トレーニング中に事前訓練され、固定されている。本稿では,強化学習によるテキストエンコーダの微調整により,結果のテキストと画像のアライメントを強化し,視覚品質を向上させることを実証する。我々の主な動機は、現在のテキストエンコーダが最適以下であり、しばしば注意深い迅速な調整を必要とすることにある。 u-netの微調整は性能を部分的に改善するが、サブ最適テキストエンコーダに苦しんでいる。そこで本研究では,タスク固有の報酬に基づいてテキストエンコーダを微調整するために,低ランク適応による強化学習を提案する。まず,テキストエンコーダの微調整により拡散モデルの性能が向上することを示す。次に、TexForceが既存のU-Netファインチューニングモデルと簡単に組み合わせて、追加のトレーニングなしでより優れた結果を得ることができることを示す。最後に,高品質な顔画像や手画像の生成など,多種多様な応用における本手法の適用性を示す。

関連論文リスト

TextGuider: Training-Free Guidance for Text Rendering via Attention Alignment [68.91073792449201]
そこで本研究では,テキストの正確かつ完全な出現を促すトレーニング不要な方法であるTextGuiderを提案する。具体的には,多モード拡散変換器(MM-DiT)モデルにおける注意パターンを解析し,特に画像に描画することを意図したテキスト関連トークンについて検討する。テスト時間テキストレンダリングでは,OCR精度とCLIPスコアが大幅に向上し,高い結果が得られた。
論文参考訳（メタデータ） (2025-12-10T06:18:30Z)
ARTIST: Improving the Generation of Text-rich Images with Disentangled Diffusion Models [52.23899502520261]
テキスト構造学習に焦点を当てたARTISTという新しいフレームワークを提案する。我々は、事前訓練されたテキスト構造モデルからテキスト構造情報を同化できるように、視覚拡散モデルを微調整する。 MARIO-Evalベンチマークの実証結果は,提案手法の有効性を裏付けるものであり,様々な指標において最大15%の改善が見られた。
論文参考訳（メタデータ） (2024-06-17T19:31:24Z)
Dynamic Prompt Optimizing for Text-to-Image Generation [63.775458908172176]
テキストから画像への生成モデルを改善するために,textbfPrompt textbfAuto-textbfEditing (PAE)法を導入する。我々は、各単語の重みと射出時間ステップを探索するために、オンライン強化学習戦略を採用し、動的微調整プロンプトを導いた。
論文参考訳（メタデータ） (2024-04-05T13:44:39Z)
TextCraftor: Your Text Encoder Can be Image Quality Controller [65.27457900325462]
拡散に基づくテキスト・画像生成モデル(例えば、安定拡散)は、コンテンツ生成の分野に革命をもたらした。本研究では,テキスト・ツー・イメージ拡散モデルの性能を向上させるための微調整手法であるTextCraftorを提案する。
論文参考訳（メタデータ） (2024-03-27T19:52:55Z)
Seek for Incantations: Towards Accurate Text-to-Image Diffusion Synthesis through Prompt Engineering [118.53208190209517]
本稿では,拡散モデルの適切なテキスト記述を即時学習により学習するフレームワークを提案する。提案手法は,入力されたテキストと生成された画像とのマッチングを改善するためのプロンプトを効果的に学習することができる。
論文参考訳（メタデータ） (2024-01-12T03:46:29Z)
UDiffText: A Unified Framework for High-quality Text Synthesis in Arbitrary Images via Character-aware Diffusion Models [25.219960711604728]
本稿では,事前学習した拡散モデルを用いたテキスト画像生成手法を提案する。我々のアプローチは、オリジナルのCLIPエンコーダを置き換える軽量文字レベルテキストエンコーダの設計と訓練である。推論段階の精細化プロセスを用いることで、任意に与えられた画像のテキストを合成する際に、顕著に高いシーケンス精度を実現する。
論文参考訳（メタデータ） (2023-12-08T07:47:46Z)
TVTSv2: Learning Out-of-the-box Spatiotemporal Visual Representations at Scale [59.01246141215051]
言語指導の観点から,その劣化要因を分析した。本稿では,テキストエンコーダの一般化能力を維持するために,教師なし事前学習戦略を提案する。最大10億のパラメータを持つTVTSv2と呼ばれる一連のモデルを作成します。
論文参考訳（メタデータ） (2023-05-23T15:44:56Z)
Improving Diffusion Models for Scene Text Editing with Dual Encoders [44.12999932588205]
シーンテキスト編集(Scene text editing)は、特定のテキストを画像に修正または挿入する作業である。拡散モデルの最近の進歩は、これらの制限をテキスト条件による画像編集で克服することを約束している。デュアルエンコーダ設計による事前学習拡散モデルを改善するためにDIFFSTEを提案する。
論文参考訳（メタデータ） (2023-04-12T02:08:34Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。