論文の概要: Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2401.05675v2
- Date: Mon, 15 Jul 2024 17:19:18 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-17 02:14:47.318020
- Title: Parrot: Pareto-optimal Multi-Reward Reinforcement Learning Framework for Text-to-Image Generation
- Title(参考訳): Parrot: テキスト・画像生成のためのパレット最適マルチリワード強化学習フレームワーク
- Authors: Seung Hyun Lee, Yinxiao Li, Junjie Ke, Innfarn Yoo, Han Zhang, Jiahui Yu, Qifei Wang, Fei Deng, Glenn Entis, Junfeng He, Gang Li, Sangpil Kim, Irfan Essa, Feng Yang,
- Abstract要約: 本稿では,報酬重みを手動で調整する問題に対処するParrotを提案する。
我々は,新しいマルチリワード最適化アルゴリズムを用いて,T2Iモデルと即時拡張ネットワークを協調的に最適化する。
また,提案手法は,ユーザ入力に対するインプットの正確性を確保するために,推論時に独自のプロンプト中心のガイダンスを導入する。
- 参考スコア(独自算出の注目度): 40.74782694945025
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Recent works have demonstrated that using reinforcement learning (RL) with multiple quality rewards can improve the quality of generated images in text-to-image (T2I) generation. However, manually adjusting reward weights poses challenges and may cause over-optimization in certain metrics. To solve this, we propose Parrot, which addresses the issue through multi-objective optimization and introduces an effective multi-reward optimization strategy to approximate Pareto optimal. Utilizing batch-wise Pareto optimal selection, Parrot automatically identifies the optimal trade-off among different rewards. We use the novel multi-reward optimization algorithm to jointly optimize the T2I model and a prompt expansion network, resulting in significant improvement of image quality and also allow to control the trade-off of different rewards using a reward related prompt during inference. Furthermore, we introduce original prompt-centered guidance at inference time, ensuring fidelity to user input after prompt expansion. Extensive experiments and a user study validate the superiority of Parrot over several baselines across various quality criteria, including aesthetics, human preference, text-image alignment, and image sentiment.
- Abstract(参考訳): 近年の研究では、テキスト・ツー・イメージ(T2I)生成において、複数の品質報酬を持つ強化学習(RL)を使用することで、生成画像の品質を向上させることが示されている。
しかし、手動で報酬の重みを調整することは課題を引き起こし、特定の指標で過度に最適化される可能性がある。
そこで本研究では,多目的最適化によってこの問題に対処するParrotを提案し,Paretoを最適に近似する効果的なマルチリワード最適化手法を提案する。
ParrotはバッチワイドのPareto最適選択を利用して、さまざまな報酬の中から最適なトレードオフを自動的に識別する。
我々は,新たなマルチリワード最適化アルゴリズムを用いて,T2Iモデルと即時拡張ネットワークを協調的に最適化し,画像品質の大幅な向上と,推論中の報酬関連プロンプトを用いた報酬のトレードオフ制御を可能にする。
さらに,提案手法では,提案手法を推論時に導入し,ユーザ入力に対するインプットの正確性を確保する。
広範囲にわたる実験とユーザスタディは、美学、人間の嗜好、テキストイメージアライメント、イメージ感情など、さまざまな品質基準において、Parrotの優位性を検証する。
関連論文リスト
- FRAP: Faithful and Realistic Text-to-Image Generation with Adaptive Prompt Weighting [18.708185548091716]
FRAPは、画像毎のプロンプト重み付けを適応的に調整し、生成した画像の即時アライメントと認証を改善するための、シンプルで効果的なアプローチである。
FRAPは、複雑なデータセットからのプロンプトに対して、プロンプト画像のアライメントが著しく高い画像を生成する。
また, FRAPとLPMの即時書き直しを併用して, 劣化した即時画像のアライメントを復元する方法について検討した。
論文 参考訳(メタデータ) (2024-08-21T15:30:35Z) - Prompt Recovery for Image Generation Models: A Comparative Study of Discrete Optimizers [58.50071292008407]
本稿では,近年の離散最適化手法の突発的逆転問題に対する直接比較について述べる。
逆プロンプトと基底真理画像とのCLIP類似性に着目し, 逆プロンプトが生成する画像と基底真理画像との類似性について検討した。
論文 参考訳(メタデータ) (2024-08-12T21:35:59Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - Dynamic Reward Adjustment in Multi-Reward Reinforcement Learning for Counselor Reflection Generation [21.983823344984483]
自然言語生成のための複数テキスト品質を協調的に最適化するマルチリワード強化学習の課題について検討する。
我々は,報酬をひとつの値に組み合わせ,同時に最適化するという広範な戦略を頼りに,DynaOpt と C-DynaOpt という2つの新しいバンドイット手法を紹介した。
論文 参考訳(メタデータ) (2024-03-20T13:24:41Z) - MORL-Prompt: An Empirical Analysis of Multi-Objective Reinforcement Learning for Discrete Prompt Optimization [45.410121761165634]
RLに基づく手法は、ターゲット言語モデルに入力されると、ユーザ特定報酬関数の集合を最大化するプロンプトを探索するために用いられる。
現在の技術は報酬関数の平均値の最大化に重点を置いており、必ずしも報酬間の均衡を達成するプロンプトに繋がるとは限らない。
論文 参考訳(メタデータ) (2024-02-18T21:25:09Z) - OT-Attack: Enhancing Adversarial Transferability of Vision-Language
Models via Optimal Transport Optimization [65.57380193070574]
視覚言語事前学習モデルは、マルチモーダル対逆例に対して脆弱である。
近年の研究では、データ拡張と画像-テキストのモーダル相互作用を活用することで、対向的な例の転送可能性を高めることが示されている。
本稿では,OT-Attack と呼ばれる最適輸送方式の敵攻撃を提案する。
論文 参考訳(メタデータ) (2023-12-07T16:16:50Z) - HiFi Tuner: High-Fidelity Subject-Driven Fine-Tuning for Diffusion
Models [56.112302700630806]
我々は、パーソナライズされた画像生成におけるオブジェクトの外観保存を強化するために、HiFi Tunerという革新的なアルゴリズムを導入する。
主要な機能強化には、マスクガイダンスの利用、新しいパラメータ正規化手法、ステップワイドな主題表現の導入などがある。
提案手法を,テキスト操作による画像中の被写体置換という,新しい画像編集タスクに拡張する。
論文 参考訳(メタデータ) (2023-11-30T02:33:29Z) - Adaptive Image Registration: A Hybrid Approach Integrating Deep Learning
and Optimization Functions for Enhanced Precision [13.242184146186974]
本稿では,ディープニューラルネットワークと最適化に基づく画像登録のための単一のフレームワークを提案する。
また, 実験データの最大1.6%の改善と, 同じ推定時間を維持しつつ, 変形場平滑化における1.0%の性能向上を示す。
論文 参考訳(メタデータ) (2023-11-27T02:48:06Z) - MultiPrompter: Cooperative Prompt Optimization with Multi-Agent
Reinforcement Learning [68.40755873520808]
MultiPrompterは、プロンプト最適化をプロンプト間の協調ゲームと見なす新しいフレームワークである。
我々は,MultiPrompterが問題のサイズを効果的に減らし,プロンプトを最適に学習するのに役立つことを示す。
論文 参考訳(メタデータ) (2023-10-25T15:58:51Z) - Explainable bilevel optimization: an application to the Helsinki deblur
challenge [1.1470070927586016]
本稿では,一般画像分解問題の解に対する二段階最適化手法を提案する。
パラメトリック変動のようなアプローチを機械学習スキーム内にカプセル化し、高品質な再構成画像を提供する。
論文 参考訳(メタデータ) (2022-10-18T11:36:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。