論文の概要: Towards Reliable Advertising Image Generation Using Human Feedback
- arxiv url: http://arxiv.org/abs/2408.00418v1
- Date: Thu, 1 Aug 2024 09:39:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-04 21:05:55.582239
- Title: Towards Reliable Advertising Image Generation Using Human Feedback
- Title(参考訳): ヒューマンフィードバックを用いた信頼性の高い広告画像生成に向けて
- Authors: Zhenbang Du, Wei Feng, Haohan Wang, Yaoyu Li, Jingsen Wang, Jian Li, Zheng Zhang, Jingjing Lv, Xin Zhu, Junsheng Jin, Junjie Shen, Zhangang Lin, Jingping Shao,
- Abstract要約: 生成した画像を自動的に検査するマルチモーダル信頼フィードバックネットワーク(RFNet)を提案する。
生産効率をさらに高めるため, 革新的一貫性条件正則化を用いた微調整拡散モデルを提案する。
- 参考スコア(独自算出の注目度): 24.8070207104717
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the e-commerce realm, compelling advertising images are pivotal for attracting customer attention. While generative models automate image generation, they often produce substandard images that may mislead customers and require significant labor costs to inspect. This paper delves into increasing the rate of available generated images. We first introduce a multi-modal Reliable Feedback Network (RFNet) to automatically inspect the generated images. Combining the RFNet into a recurrent process, Recurrent Generation, results in a higher number of available advertising images. To further enhance production efficiency, we fine-tune diffusion models with an innovative Consistent Condition regularization utilizing the feedback from RFNet (RFFT). This results in a remarkable increase in the available rate of generated images, reducing the number of attempts in Recurrent Generation, and providing a highly efficient production process without sacrificing visual appeal. We also construct a Reliable Feedback 1 Million (RF1M) dataset which comprises over one million generated advertising images annotated by human, which helps to train RFNet to accurately assess the availability of generated images and faithfully reflect the human feedback. Generally speaking, our approach offers a reliable solution for advertising image generation.
- Abstract(参考訳): 電子商取引の世界では、魅力的な広告画像が顧客を惹きつけるために重要である。
生成モデルは画像生成を自動化するが、顧客を誤解させ、検査にかなりの労力を要するような、サブスタンダードなイメージをしばしば生成する。
本論文は、利用可能な画像の生成率を高めることを目的としている。
まず、生成した画像を自動的に検査するマルチモーダル信頼フィードバックネットワーク(RFNet)を導入する。
RFNetをリカレントプロセス、Recurrent Generationに組み込むことで、より多くの利用可能な広告画像が得られる。
RFNet (RFFT) からのフィードバックを利用して, 一貫性条件正規化による微動拡散モデルを提案する。
これにより、生成画像の利用可能率が著しく増加し、リカレントジェネレーションにおける試行回数が減少し、視覚的魅力を犠牲にすることなく、高効率な生産プロセスが提供される。
また、人間によって注釈付けされた100万以上の生成した広告画像からなる信頼性フィードバック100万(RF1M)データセットを構築し、RFNetをトレーニングし、生成した画像の可用性を正確に評価し、人間のフィードバックを忠実に反映する。
一般的に,本手法は画像生成のための信頼性の高い手法である。
関連論文リスト
- RefDrop: Controllable Consistency in Image or Video Generation via Reference Feature Guidance [22.326405355520176]
RefDropを使えば、ユーザーは直接的かつ正確な方法で参照コンテキストの影響を制御できる。
また,本手法は,複数の主題を一貫した生成など,より興味深い応用を可能にする。
論文 参考訳(メタデータ) (2024-05-27T21:23:20Z) - CRNet: A Detail-Preserving Network for Unified Image Restoration and Enhancement Task [44.14681936953848]
複合リファインメントネットワーク(CRNet)は、統合された画像復元と拡張を行うことができる。
CRNetは、プール層を通じて、高頻度と低周波の情報を明確に分離し、強化する。
私たちのモデルは、ブラケット画像復元・拡張チャレンジの最初のトラックで3位を確保しました。
論文 参考訳(メタデータ) (2024-04-22T12:33:18Z) - FairRAG: Fair Human Generation via Fair Retrieval Augmentation [27.069276012884398]
本稿では,Fair Retrieval Augmented Generation (FairRAG)について紹介する。FairRAGは,外部画像データベースから取得した参照画像に事前学習した生成モデルを条件付けし,人間の生成における公平性を改善するためのフレームワークである。
公平性を高めるために、FairRAGは単純なyet- Effective debiasing戦略を適用し、生成過程において多様な人口集団の画像を提供する。
論文 参考訳(メタデータ) (2024-03-29T03:56:19Z) - PromptRR: Diffusion Models as Prompt Generators for Single Image
Reflection Removal [138.38229287266915]
既存のシングルイメージリフレクション除去法(SIRR)は、画像のキー低周波(LF)と高周波(HF)の違いを見逃す傾向がある。
本稿では、周波数情報を新しい視覚的プロンプトとして利用し、反射性能を向上する新しいプロンプト誘導反射除去フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-04T07:11:10Z) - E$^{2}$GAN: Efficient Training of Efficient GANs for Image-to-Image Translation [69.72194342962615]
拡散モデルからGANを蒸留するプロセスは、より効率的にできるのか?
まず、一般化された特徴を持つベースGANモデルを構築し、微調整により異なる概念に適応し、スクラッチからトレーニングの必要性を排除した。
第2に,ベースモデル全体の微調整を行うのではなく,低ランク適応(LoRA)を簡易かつ効果的なランク探索プロセスで行う。
第3に、微調整に必要な最小限のデータ量を調査し、トレーニング時間を短縮する。
論文 参考訳(メタデータ) (2024-01-11T18:59:14Z) - Compensation Sampling for Improved Convergence in Diffusion Models [12.311434647047427]
拡散モデルは画像生成において顕著な品質を達成するが、コストはかかる。
反復 denoising は高忠実度画像を生成するために多くの時間ステップを必要とする。
対象データの初期的不正確な再構成による復元誤差の蓄積により,復調過程が著しく制限されていることを論じる。
論文 参考訳(メタデータ) (2023-12-11T10:39:01Z) - Emu: Enhancing Image Generation Models Using Photogenic Needles in a
Haystack [75.00066365801993]
Webスケールの画像-テキストペアによるテキスト-画像モデルのトレーニングにより、テキストから幅広い視覚概念を生成することができる。
これらの事前訓練されたモデルは、高度に美的な画像を生成することに関して、しばしば課題に直面します。
本稿では,高度に視覚的に魅力的な画像のみを生成するために,事前学習されたモデルを誘導する品質チューニングを提案する。
論文 参考訳(メタデータ) (2023-09-27T17:30:19Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - Identity Encoder for Personalized Diffusion [57.1198884486401]
パーソナライズのためのエンコーダに基づくアプローチを提案する。
我々は、被写体の参照画像の集合からアイデンティティ表現を抽出できるアイデンティティエンコーダを学習する。
提案手法は画像生成と再構成の両方において既存の微調整に基づくアプローチより一貫して優れていることを示す。
論文 参考訳(メタデータ) (2023-04-14T23:32:24Z) - Focal Frequency Loss for Image Reconstruction and Synthesis [125.7135706352493]
周波数領域の狭さが画像再構成と合成品質をさらに改善できることを示す。
本稿では,合成が難しい周波数成分に適応的に焦点を合わせることのできる,新しい焦点周波数損失を提案する。
論文 参考訳(メタデータ) (2020-12-23T17:32:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。