論文の概要: Optimizing Negative Prompts for Enhanced Aesthetics and Fidelity in Text-To-Image Generation
- arxiv url: http://arxiv.org/abs/2403.07605v3
- Date: Tue, 05 Nov 2024 01:11:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-06 14:57:45.566223
- Title: Optimizing Negative Prompts for Enhanced Aesthetics and Fidelity in Text-To-Image Generation
- Title(参考訳): テキスト・ツー・イメージ・ジェネレーションにおける美学と忠実度向上のためのネガティブ・プロンプトの最適化
- Authors: Michael Ogezi, Ning Shi,
- Abstract要約: 我々は、画像生成の高速化に向けて、負のプロンプト生成を最適化する新しい方法であるNegOptを提案する。
その結果,他の手法と比較して,インセプションスコアの25%が大幅に増加した。
- 参考スコア(独自算出の注目度): 1.4138057640459576
- License:
- Abstract: In text-to-image generation, using negative prompts, which describe undesirable image characteristics, can significantly boost image quality. However, producing good negative prompts is manual and tedious. To address this, we propose NegOpt, a novel method for optimizing negative prompt generation toward enhanced image generation, using supervised fine-tuning and reinforcement learning. Our combined approach results in a substantial increase of 25% in Inception Score compared to other approaches and surpasses ground-truth negative prompts from the test set. Furthermore, with NegOpt we can preferentially optimize the metrics most important to us. Finally, we construct Negative Prompts DB (https://huggingface.co/datasets/mikeogezi/negopt_full), a publicly available dataset of negative prompts.
- Abstract(参考訳): テキスト・ツー・イメージ生成では、望ましくない画像特性を記述した負のプロンプトを用いることで、画質を大幅に向上させることができる。
しかし、良いネガティブなプロンプトを生み出すことは手作業であり、退屈である。
そこで我々は, 教師付き微調整と強化学習を用いて, 画像生成に対する負のプロンプト生成を最適化する新しい手法NegOptを提案する。
その結果, インセプションスコアは, 他の手法に比べて25%増加し, テストセットの真真正のプロンプトを上回った。
さらに、NegOptを使えば、私たちにとって最も重要なメトリクスを優先的に最適化できます。
最後に、負のプロンプトのデータセットである負のプロンプトDB(https://huggingface.co/datasets/mikeogezi/negopt_full)を構築します。
関連論文リスト
- ReNeg: Learning Negative Embedding with Reward Guidance [69.81219455975477]
テキスト・ツー・イメージ(T2I)生成アプリケーションでは、負の埋め込みは生成品質を向上させるための単純で効果的なアプローチであることが証明されている。
Rewardモデルにより導かれる改良された負の埋め込みを学習するために設計されたエンドツーエンドの手法であるReNegを紹介する。
論文 参考訳(メタデータ) (2024-12-27T13:31:55Z) - Towards Unified Modeling for Positive and Negative Preferences in
Sign-Aware Recommendation [13.300975621769396]
textbfLight textbfSigned textbfGraph Convolution Network for textbfRecommendation (textbfLSGRec)を提案する。
高次不均一相互作用における負の選好について、一階の負の選好は負のリンクによって捕捉される。
推奨結果は肯定的な選好に基づいて生成され、負の選好で最適化される。
論文 参考訳(メタデータ) (2024-03-13T05:00:42Z) - Generating Enhanced Negatives for Training Language-Based Object Detectors [86.1914216335631]
我々は、現代の生成モデルに組み込まれた膨大な知識を活用して、元のデータにより関連性のある負を自動で構築することを提案する。
具体的には、大言語モデルを用いて、負のテキスト記述を生成するとともに、テキスト間拡散モデルを用いて、対応する負の画像を生成する。
実験により, 生成した負データとの関連性を確認し, 言語ベースの検出器での使用により, 2つの複雑なベンチマークの性能が向上した。
論文 参考訳(メタデータ) (2023-12-29T23:04:00Z) - Your Negative May not Be True Negative: Boosting Image-Text Matching
with False Negative Elimination [62.18768931714238]
提案手法は, サンプリングによる新規な偽陰性除去 (FNE) 戦略である。
その結果,提案した偽陰性除去戦略の優位性が示された。
論文 参考訳(メタデータ) (2023-08-08T16:31:43Z) - DreamArtist++: Controllable One-Shot Text-to-Image Generation via Positive-Negative Adapter [63.622879199281705]
いくつかの例に基づく画像生成手法が提案されており、例えば、いくつかの入力参照の健全な特徴を吸収して新しい概念を生成する。
本研究では,DreamArtistというシンプルなフレームワークを提案する。このフレームワークは,事前学習した拡散モデルに対して,新しい正負の学習戦略を採用する。
我々は,画像類似性(忠実度)と多様性,生成制御性,スタイルのクローニングから,幅広い実験を行い,提案手法の評価を行った。
論文 参考訳(メタデータ) (2022-11-21T10:37:56Z) - Negative Sample is Negative in Its Own Way: Tailoring Negative Sentences
for Image-Text Retrieval [19.161248757493386]
本稿では, 否定文として自動的に合成文を生成するために, 識別・訂正による否定文をTAGS-DC(TAiloring Negative Sentences with Discrimination and Correction)を提案する。
トレーニング中の難易度を維持するため,パラメータ共有による検索と生成を相互に改善する。
実験では,MS-COCOおよびFlickr30Kにおけるモデルの有効性を,現在の最先端モデルと比較して検証した。
論文 参考訳(メタデータ) (2021-11-05T09:36:41Z) - Instance-wise Hard Negative Example Generation for Contrastive Learning
in Unpaired Image-to-Image Translation [102.99799162482283]
非ペア画像-画像翻訳(NEGCUT)におけるコントラスト学習のための例-wise hard Negative Example Generationを提案する。
具体的には、オンラインでネガティブな例を生成するようにジェネレータを訓練する。ジェネレータは、1)入力画像に基づいて生成されたサンプルをインスタンスワイズし、2)逆向きの損失で訓練されたので、強烈なネガティブな例を生成することができる。
論文 参考訳(メタデータ) (2021-08-10T09:44:59Z) - Adaptive Offline Quintuplet Loss for Image-Text Matching [102.50814151323965]
既存の画像テキストマッチングアプローチでは、オンラインのハードネガティブによるトリプルト損失を利用してモデルをトレーニングするのが一般的である。
トレーニングセット全体からオフラインで負をサンプリングして解を提案する。
我々は,MS-COCOとFlickr30Kデータセットを用いた3つの最先端画像テキストモデルに対するトレーニング手法の評価を行った。
論文 参考訳(メタデータ) (2020-03-07T22:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。