論文の概要: FairQueue: Rethinking Prompt Learning for Fair Text-to-Image Generation
- arxiv url: http://arxiv.org/abs/2410.18615v1
- Date: Thu, 24 Oct 2024 10:16:09 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-25 12:51:25.281708
- Title: FairQueue: Rethinking Prompt Learning for Fair Text-to-Image Generation
- Title(参考訳): FairQueue: テキスト対画像生成のためのプロンプト学習の再考
- Authors: Christopher T. H Teo, Milad Abdollahzadeh, Xinda Ma, Ngai-man Cheung,
- Abstract要約: テキスト・トゥ・イメージ(T2I)生成のための最先端技術(SOTA)として、即時学習が登場している。
そこで本研究では,この素早い学習に基づくアプローチによって,サンプルの品質が劣化することを明らかにする。
品質問題に対処するため, (i) Prompt Queuing と (ii) Attention Amplification の2つのアイデアを提案する。
- 参考スコア(独自算出の注目度): 28.185503858652456
- License:
- Abstract: Recently, prompt learning has emerged as the state-of-the-art (SOTA) for fair text-to-image (T2I) generation. Specifically, this approach leverages readily available reference images to learn inclusive prompts for each target Sensitive Attribute (tSA), allowing for fair image generation. In this work, we first reveal that this prompt learning-based approach results in degraded sample quality. Our analysis shows that the approach's training objective -- which aims to align the embedding differences of learned prompts and reference images -- could be sub-optimal, resulting in distortion of the learned prompts and degraded generated images. To further substantiate this claim, as our major contribution, we deep dive into the denoising subnetwork of the T2I model to track down the effect of these learned prompts by analyzing the cross-attention maps. In our analysis, we propose a novel prompt switching analysis: I2H and H2I. Furthermore, we propose new quantitative characterization of cross-attention maps. Our analysis reveals abnormalities in the early denoising steps, perpetuating improper global structure that results in degradation in the generated samples. Building on insights from our analysis, we propose two ideas: (i) Prompt Queuing and (ii) Attention Amplification to address the quality issue. Extensive experimental results on a wide range of tSAs show that our proposed method outperforms SOTA approach's image generation quality, while achieving competitive fairness. More resources at FairQueue Project site: https://sutd-visual-computing-group.github.io/FairQueue
- Abstract(参考訳): 近年,テキスト・トゥ・イメージ(T2I)生成のための最先端(SOTA)として,即時学習が登場している。
具体的には、容易に利用可能な参照画像を活用して、各ターゲットに対する包括的プロンプト(tSA)を学習し、公正な画像生成を可能にする。
そこで本研究では,この素早い学習に基づくアプローチによって,サンプルの品質が劣化することを明らかにする。
分析の結果,学習したプロンプトと参照画像の埋め込み差を調整し,学習したプロンプトの歪みや生成した画像の劣化を減らし,学習したプロンプトと参照画像の埋め込み差を補正することを目的とした学習目標が準最適である可能性が示唆された。
この主張をさらに裏付けるために、我々の主要な貢献として、我々はT2Iモデルの認知サブネットワークを深く掘り下げて、これらの学習プロンプトの効果を、横断注意マップを解析することによって追跡する。
そこで本研究では,I2HとH2Iという新しいスイッチング解析手法を提案する。
さらに,クロスアテンションマップの定量的特徴付けを新たに提案する。
解析の結果, 初期脱臭過程の異常が明らかとなり, 生成した試料の劣化が生じる不適切な大域構造が持続することがわかった。
分析から洞察を得た上で、私たちは2つのアイデアを提案します。
(i)プロンプトキューイングとプロンプトキューイング
二 品質問題に対処するための注意喚起
広い範囲の tSA 実験結果から,提案手法がSOTA アプローチの画質を上回り,競争公正性を実現していることが明らかとなった。
FairQueueプロジェクトサイトのさらなるリソース: https://sutd-visual-visuting-group.github.io/FairQueue
関連論文リスト
- Negative Results of Image Processing for Identifying Duplicate Questions on Stack Overflow [2.2667044928324747]
Stack Overflow上の重複した質問を識別するための画像ベース手法について検討した。
まず,画像からのテキストを疑問テキストに統合し,第2に画像キャプションを用いて視覚的内容に基づいて画像を評価する。
私たちの研究は、簡単な複製と仮説検証の基盤を築き、将来の研究を私たちのアプローチの上に構築します。
論文 参考訳(メタデータ) (2024-07-08T00:14:21Z) - UniQA: Unified Vision-Language Pre-training for Image Quality and Aesthetic Assessment [23.48816491333345]
画像品質評価(IQA)と画像審美評価(IAA)は、人間の視覚的品質と美的魅力に対する主観的知覚をシミュレートすることを目的としている。
既存の手法は、異なる学習目的のために、これらのタスクを独立して扱うのが一般的である。
本研究では,2つのタスクの一般的な認識を学習するために,視覚言語による品質と美学の事前学習(UniQA)を提案する。
論文 参考訳(メタデータ) (2024-06-03T07:40:10Z) - Information Theoretic Text-to-Image Alignment [49.396917351264655]
本稿では,ステア画像生成のための情報理論アライメント尺度を用いた新しい手法を提案する。
提案手法は最先端の手法よりも優れているが,MIを推定するためには事前学習されたデノナイジングネットワークを必要としない。
論文 参考訳(メタデータ) (2024-05-31T12:20:02Z) - Multi-Modal Prompt Learning on Blind Image Quality Assessment [65.0676908930946]
画像品質評価(IQA)モデルは意味情報から大きな恩恵を受け、異なる種類のオブジェクトを明瞭に扱うことができる。
十分な注釈付きデータが不足している従来の手法では、セマンティックな認識を得るために、CLIPイメージテキスト事前学習モデルをバックボーンとして使用していた。
近年のアプローチでは、このミスマッチに即時技術を使って対処する試みがあるが、これらの解決策には欠点がある。
本稿では、IQAのための革新的なマルチモーダルプロンプトベースの手法を提案する。
論文 参考訳(メタデータ) (2024-04-23T11:45:32Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - Harnessing Diffusion Models for Visual Perception with Meta Prompts [68.78938846041767]
本稿では,視覚知覚タスクの拡散モデルを用いた簡易かつ効果的な手法を提案する。
学習可能な埋め込み(メタプロンプト)を事前学習した拡散モデルに導入し、知覚の適切な特徴を抽出する。
提案手法は,NYU 深度 V2 と KITTI の深度推定タスク,および CityScapes のセマンティックセグメンテーションタスクにおいて,新しい性能記録を実現する。
論文 参考訳(メタデータ) (2023-12-22T14:40:55Z) - DreamDistribution: Prompt Distribution Learning for Text-to-Image
Diffusion Models [53.17454737232668]
本稿では,事前学習したT2I拡散モデルを用いて,ソフトプロンプトの集合を学習する解を提案する。
これらのプロンプトは、テキストガイドによる編集機能と、複数のディストリビューション間の変動と混合を制御する柔軟性を提供する。
また,テキスト・トゥ・3Dなどの他のタスクに対して,学習したプロンプト分布の適応性を示す。
論文 参考訳(メタデータ) (2023-12-21T12:11:00Z) - Towards Unsupervised Deep Image Enhancement with Generative Adversarial
Network [92.01145655155374]
監視されていない画像強調生成ネットワーク(UEGAN)を提案する。
教師なしの方法で所望の特性を持つ画像の集合から、対応する画像と画像のマッピングを学習する。
その結果,提案モデルは画像の美的品質を効果的に向上することがわかった。
論文 参考訳(メタデータ) (2020-12-30T03:22:46Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。