論文の概要: Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2401.05675v1
- Date: Thu, 11 Jan 2024 05:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 19:31:51.602473
- Title: Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for
Text-to-Image Generation
- Title(参考訳): Parrot: テキスト・画像生成のためのパレット最適マルチリワード強化学習フレームワーク
- Authors: Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui
Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim,
Irfan Essa, Feng Yang
- Abstract要約: 品質報酬を伴う強化学習(RL)は、テキスト・ツー・イメージ(T2I)生成における生成画像の品質を高めることができる。
本稿では,T2I 生成のための新しいマルチリワード RL フレームワークである Parrot を紹介する。
- 参考スコア(独自算出の注目度): 41.660138818293525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent works demonstrate that using reinforcement learning (RL) with quality
rewards can enhance the quality of generated images in text-to-image (T2I)
generation. However, a simple aggregation of multiple rewards may cause
over-optimization in certain metrics and degradation in others, and it is
challenging to manually find the optimal weights. An effective strategy to
jointly optimize multiple rewards in RL for T2I generation is highly desirable.
This paper introduces Parrot, a novel multi-reward RL framework for T2I
generation. Through the use of the batch-wise Pareto optimal selection, Parrot
automatically identifies the optimal trade-off among different rewards during
the RL optimization of the T2I generation. Additionally, Parrot employs a joint
optimization approach for the T2I model and the prompt expansion network,
facilitating the generation of quality-aware text prompts, thus further
enhancing the final image quality. To counteract the potential catastrophic
forgetting of the original user prompt due to prompt expansion, we introduce
original prompt centered guidance at inference time, ensuring that the
generated image remains faithful to the user input. Extensive experiments and a
user study demonstrate that Parrot outperforms several baseline methods across
various quality criteria, including aesthetics, human preference, image
sentiment, and text-image alignment.
- Abstract(参考訳): 近年の研究では,テキスト・ツー・イメージ(T2I)生成における画像の品質向上が図られている。
しかし、複数の報酬の単純な集約は、ある指標の過度な最適化と他の指標の劣化を引き起こす可能性があり、手動で最適な重みを見つけることは困難である。
T2I生成のためのRLにおける複数の報酬を協調的に最適化する効果的な戦略が望まれる。
本稿では,t2i世代向けマルチワードrlフレームワークparrotを紹介する。
バッチワイドのパレート最適選択を用いることで、ParrotはT2I生成のRL最適化において、異なる報酬間の最適トレードオフを自動的に識別する。
さらにparrotは、t2iモデルとプロンプト拡張ネットワークの合同最適化アプローチを採用し、品質認識テキストプロンプトの生成を容易にし、最終的な画質をさらに向上させる。
そこで本研究では,プロンプトがユーザの入力に忠実であり続けることを保証するために,推定時間に元のプロンプト中心のガイダンスを導入する。
大規模な実験とユーザスタディにより、Parrotは、美学、人間の好み、イメージの感情、テキストイメージアライメントなど、さまざまな品質基準で、いくつかのベースラインメソッドを上回ります。
関連論文リスト
- SELMA: Learning and Merging Skill-Specific Text-to-Image Experts with
Auto-Generated Data [73.23388142296535]
SELMAは、自動生成されたマルチスキル画像テキストデータセット上での微調整モデルにより、T2Iモデルの忠実度を向上させる。
SELMAは、複数のベンチマーク上での最先端T2I拡散モデルのセマンティックアライメントとテキスト忠実性を大幅に改善することを示す。
また、SELMAを介して自動コンパイルされた画像テキストペアによる微調整は、地上の真理データによる微調整に匹敵する性能を示した。
論文 参考訳(メタデータ) (2024-03-11T17:35:33Z) - Direct Consistency Optimization for Compositional Text-to-Image
Personalization [73.94505688626651]
テキスト・ツー・イメージ(T2I)拡散モデルは、いくつかの個人画像に微調整された場合、高い一貫性で視覚を生成することができる。
本稿では,参照画像との整合性を最大化しつつ,事前学習したモデルからの偏差を補償することにより,T2Iモデルを微調整する。
論文 参考訳(メタデータ) (2024-02-19T09:52:41Z) - Universal Prompt Optimizer for Safe Text-to-Image Generation [29.31648048610413]
ブラックボックスシナリオにおける安全なT2I生成のための最初のユニバーサルプロンプトを提案する。
提案手法は,不適切な画像を生成する際に,様々なT2Iモデルの有効性を効果的に低減できることを示す。
論文 参考訳(メタデータ) (2024-02-16T18:36:36Z) - Iterative Prompt Relabeling for diffusion model with RLDF [32.60206876828442]
拡散モデルは、画像生成、時系列予測、強化学習など、多くの領域で顕著な性能を示している。
本稿では,反復的な画像サンプリングとプロンプト・レバーベリングにより,画像とテキストを協調する新しいアルゴリズムIP-RLDFを提案する。
SDv2, GLIGEN, SDXLの3種類のモデルに対して徹底的な実験を行い, 命令に従って画像を生成する能力を検証した。
論文 参考訳(メタデータ) (2023-12-23T11:10:43Z) - HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion
Models [56.112302700630806]
我々は、パーソナライズされた画像生成におけるオブジェクトの外観保存を強化するために、HiFi Tunerという革新的なアルゴリズムを導入する。
主要な機能強化には、マスクガイダンスの利用、新しいパラメータ正規化手法、ステップワイドな主題表現の導入などがある。
提案手法を,テキスト操作による画像中の被写体置換という,新しい画像編集タスクに拡張する。
論文 参考訳(メタデータ) (2023-11-30T02:33:29Z) - Reinforcement Learning from Diffusion Feedback: Q* for Image Search [2.5835347022640254]
モデル非依存学習を用いた画像生成のための2つのモデルを提案する。
RLDFは、事前保存された報酬関数誘導による視覚模倣のための特異なアプローチである。
クラス一貫性と強力な視覚的多様性を示す様々な領域にまたがる高品質な画像を生成する。
論文 参考訳(メタデータ) (2023-11-27T09:20:12Z) - T2I-CompBench: A Comprehensive Benchmark for Open-world Compositional
Text-to-image Generation [62.71574695256264]
T2I-CompBenchは、オープンワールドのコンポジションテキスト・ツー・イメージ生成のための包括的なベンチマークである。
合成テキスト・画像生成の評価に特化して設計されたいくつかの評価指標を提案する。
本稿では,ジェネレーティブmOdelファインタニングとReward-driven Sample selection (GORS)を導入することで,合成テキスト・画像生成能力を向上する手法を提案する。
論文 参考訳(メタデータ) (2023-07-12T17:59:42Z) - OptAGAN: Entropy-based finetuning on text VAE-GAN [1.941730292017383]
最近、変分オートエンコーダ(VAE)がリリースされた。
BERTとGPT-2の2つの事前訓練モデルを組み合わせている。
独創的だが、非常に人間らしい文体を創出する。
論文 参考訳(メタデータ) (2021-09-01T08:23:19Z) - Towards Open-World Text-Guided Face Image Generation and Manipulation [52.83401421019309]
顔画像生成と操作の両方に統一的なフレームワークを提案する。
本手法は,画像とテキストの両方を含むオープンワールドシナリオをサポートし,再トレーニングや微調整,後処理は行わない。
論文 参考訳(メタデータ) (2021-04-18T16:56:07Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。