論文の概要: Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for
Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2401.05675v1
- Date: Thu, 11 Jan 2024 05:36:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-12 19:31:51.602473
- Title: Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for
Text-to-Image Generation
- Title(参考訳): Parrot: テキスト・画像生成のためのパレット最適マルチリワード強化学習フレームワーク
- Authors: Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui
Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim,
Irfan Essa, Feng Yang
- Abstract要約: 品質報酬を伴う強化学習(RL)は、テキスト・ツー・イメージ(T2I)生成における生成画像の品質を高めることができる。
本稿では,T2I 生成のための新しいマルチリワード RL フレームワークである Parrot を紹介する。
- 参考スコア(独自算出の注目度): 41.660138818293525
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent works demonstrate that using reinforcement learning (RL) with quality
rewards can enhance the quality of generated images in text-to-image (T2I)
generation. However, a simple aggregation of multiple rewards may cause
over-optimization in certain metrics and degradation in others, and it is
challenging to manually find the optimal weights. An effective strategy to
jointly optimize multiple rewards in RL for T2I generation is highly desirable.
This paper introduces Parrot, a novel multi-reward RL framework for T2I
generation. Through the use of the batch-wise Pareto optimal selection, Parrot
automatically identifies the optimal trade-off among different rewards during
the RL optimization of the T2I generation. Additionally, Parrot employs a joint
optimization approach for the T2I model and the prompt expansion network,
facilitating the generation of quality-aware text prompts, thus further
enhancing the final image quality. To counteract the potential catastrophic
forgetting of the original user prompt due to prompt expansion, we introduce
original prompt centered guidance at inference time, ensuring that the
generated image remains faithful to the user input. Extensive experiments and a
user study demonstrate that Parrot outperforms several baseline methods across
various quality criteria, including aesthetics, human preference, image
sentiment, and text-image alignment.
- Abstract(参考訳): 近年の研究では,テキスト・ツー・イメージ(T2I)生成における画像の品質向上が図られている。
しかし、複数の報酬の単純な集約は、ある指標の過度な最適化と他の指標の劣化を引き起こす可能性があり、手動で最適な重みを見つけることは困難である。
T2I生成のためのRLにおける複数の報酬を協調的に最適化する効果的な戦略が望まれる。
本稿では,t2i世代向けマルチワードrlフレームワークparrotを紹介する。
バッチワイドのパレート最適選択を用いることで、ParrotはT2I生成のRL最適化において、異なる報酬間の最適トレードオフを自動的に識別する。
さらにparrotは、t2iモデルとプロンプト拡張ネットワークの合同最適化アプローチを採用し、品質認識テキストプロンプトの生成を容易にし、最終的な画質をさらに向上させる。
そこで本研究では,プロンプトがユーザの入力に忠実であり続けることを保証するために,推定時間に元のプロンプト中心のガイダンスを導入する。
大規模な実験とユーザスタディにより、Parrotは、美学、人間の好み、イメージの感情、テキストイメージアライメントなど、さまざまな品質基準で、いくつかのベースラインメソッドを上回ります。
関連論文リスト
- FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - Prompt Recovery for Image Generation Models: A Comparative Study of Discrete Optimizers [58.50071292008407]
本稿では,近年の離散最適化手法の突発的逆転問題に対する直接比較について述べる。
逆プロンプトと基底真理画像とのCLIP類似性に着目し, 逆プロンプトが生成する画像と基底真理画像との類似性について検討した。
論文 参考訳(メタデータ) (2024-08-12T21:35:59Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Dynamic Reward Adjustment in Multi-Reward Reinforcement Learning for Counselor Reflection Generation [21.983823344984483]
自然言語生成のための複数テキスト品質を協調的に最適化するマルチリワード強化学習の課題について検討する。
我々は,報酬をひとつの値に組み合わせ,同時に最適化するという広範な戦略を頼りに,DynaOpt と C-DynaOpt という2つの新しいバンドイット手法を紹介した。
論文 参考訳(メタデータ) (2024-03-20T13:24:41Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization [45.410121761165634]
RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion
Models [56.112302700630806]
我々は、パーソナライズされた画像生成におけるオブジェクトの外観保存を強化するために、HiFi Tunerという革新的なアルゴリズムを導入する。
主要な機能強化には、マスクガイダンスの利用、新しいパラメータ正規化手法、ステップワイドな主題表現の導入などがある。
提案手法を,テキスト操作による画像中の被写体置換という,新しい画像編集タスクに拡張する。
論文 参考訳(メタデータ) (2023-11-30T02:33:29Z) - Adaptive Image Registration: A Hybrid Approach Integrating Deep Learning
and Optimization Functions for Enhanced Precision [13.242184146186974]
本稿では,ディープニューラルネットワークと最適化に基づく画像登録のための単一のフレームワークを提案する。
また, 実験データの最大1.6%の改善と, 同じ推定時間を維持しつつ, 変形場平滑化における1.0%の性能向上を示す。
論文 参考訳(メタデータ) (2023-11-27T02:48:06Z) - MultiPrompter: Cooperative Prompt Optimization with Multi-Agent
Reinforcement Learning [68.40755873520808]
MultiPrompterは、プロンプト最適化をプロンプト間の協調ゲームと見なす新しいフレームワークである。
我々は,MultiPrompterが問題のサイズを効果的に減らし,プロンプトを最適に学習するのに役立つことを示す。
論文 参考訳(メタデータ) (2023-10-25T15:58:51Z) - Explainable bilevel optimization: an application to the Helsinki deblur
challenge [1.1470070927586016]
本稿では,一般画像分解問題の解に対する二段階最適化手法を提案する。
パラメトリック変動のようなアプローチを機械学習スキーム内にカプセル化し、高品質な再構成画像を提供する。
論文 参考訳(メタデータ) (2022-10-18T11:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。