論文の概要: SCoFT: Self-Contrastive Fine-Tuning for Equitable Image Generation
- arxiv url: http://arxiv.org/abs/2401.08053v1
- Date: Tue, 16 Jan 2024 02:10:13 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-17 15:25:43.604446
- Title: SCoFT: Self-Contrastive Fine-Tuning for Equitable Image Generation
- Title(参考訳): SCoFT: 等価画像生成のための自己コントラストファインチューニング
- Authors: Zhixuan Liu, Peter Schaldenbrand, Beverley-Claire Okogwu, Wenxuan
Peng, Youngsik Yun, Andrew Hundt, Jihie Kim, Jean Oh
- Abstract要約: 本稿では,モデルの既知のバイアスを自己改善に活用する,自己コントラストファインタニング(SCoFT)手法を提案する。
SCoFTは、小さなデータセットのオーバーフィッティングを防止し、データから高レベルの情報のみをエンコードし、事前訓練されたモデルでエンコードされた誤った表現から生成されたディストリビューションをシフトするように設計されている。
- 参考スコア(独自算出の注目度): 15.02702600793921
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Accurate representation in media is known to improve the well-being of the
people who consume it. Generative image models trained on large web-crawled
datasets such as LAION are known to produce images with harmful stereotypes and
misrepresentations of cultures. We improve inclusive representation in
generated images by (1) engaging with communities to collect a culturally
representative dataset that we call the Cross-Cultural Understanding Benchmark
(CCUB) and (2) proposing a novel Self-Contrastive Fine-Tuning (SCoFT) method
that leverages the model's known biases to self-improve. SCoFT is designed to
prevent overfitting on small datasets, encode only high-level information from
the data, and shift the generated distribution away from misrepresentations
encoded in a pretrained model. Our user study conducted on 51 participants from
5 different countries based on their self-selected national cultural
affiliation shows that fine-tuning on CCUB consistently generates images with
higher cultural relevance and fewer stereotypes when compared to the Stable
Diffusion baseline, which is further improved with our SCoFT technique.
- Abstract(参考訳): メディアにおける正確な表現は、それを消費する人々の幸福を改善することが知られている。
LAIONのような大規模なウェブクローリングデータセットで訓練された生成画像モデルは、有害なステレオタイプと文化の誤表現を持つ画像を生成することが知られている。
本研究は,(1)地域コミュニティと連携して,文化に代表されるデータセットを収集し,(2)モデルが既知のバイアスを活用して自己改善を行う,新しい自己矛盾的微調整(scoft)手法を提案することにより,生成画像の包括的表現を改善する。
SCoFTは、小さなデータセットのオーバーフィッティングを防止し、データから高レベルの情報のみをエンコードし、事前訓練されたモデルでエンコードされた誤った表現から生成されたディストリビューションをシフトするように設計されている。
自国の文化的アフィリエイトに基づく51カ国の参加者を対象に実施したユーザスタディでは, CCUBの微調整は, SCoFT技術によりさらに改善された安定拡散ベースラインと比較して, 文化的関連性が高く, ステレオタイプが少ないイメージを連続的に生成することが示された。
関連論文リスト
- Removing Distributional Discrepancies in Captions Improves Image-Text Alignment [76.31530836622694]
画像テキストアライメントの予測を改善するためのモデルを提案する。
このアプローチでは、アライメントタスクのための高品質なトレーニングデータセットの生成に重点を置いています。
また,テキストアライメントに基づくテキスト・ツー・イメージ・モデルによる画像のランク付けにより,本モデルの適用性を示す。
論文 参考訳(メタデータ) (2024-10-01T17:50:17Z) - Enhancing Large Vision Language Models with Self-Training on Image Comprehension [131.14381425260706]
本稿では、画像理解に特化して自己学習アプローチを強調する自己学習 on Image (STIC)を紹介する。
まず、ラベルのない画像を用いて、画像記述の好みを自己構築する。
抽出した視覚情報に対する推論をさらに自己改善するため,既存の命令調整データのごく一部をモデルに再利用する。
論文 参考訳(メタデータ) (2024-05-30T05:53:49Z) - FairRAG: Fair Human Generation via Fair Retrieval Augmentation [27.069276012884398]
本稿では,Fair Retrieval Augmented Generation (FairRAG)について紹介する。FairRAGは,外部画像データベースから取得した参照画像に事前学習した生成モデルを条件付けし,人間の生成における公平性を改善するためのフレームワークである。
公平性を高めるために、FairRAGは単純なyet- Effective debiasing戦略を適用し、生成過程において多様な人口集団の画像を提供する。
論文 参考訳(メタデータ) (2024-03-29T03:56:19Z) - Enhance Image Classification via Inter-Class Image Mixup with Diffusion Model [80.61157097223058]
画像分類性能を高めるための一般的な戦略は、T2Iモデルによって生成された合成画像でトレーニングセットを増強することである。
本研究では,既存のデータ拡張技術の欠点について検討する。
Diff-Mixと呼ばれる革新的なクラス間データ拡張手法を導入する。
論文 参考訳(メタデータ) (2024-03-28T17:23:45Z) - On quantifying and improving realism of images generated with diffusion [50.37578424163951]
与えられた画像の5つの統計的測度から算出した画像リアリズムスコア(IRS)と呼ばれるメトリクスを提案する。
IRSは、与えられた画像を実または偽のものとして分類する手段として容易に利用できる。
我々は,安定拡散モデル (SDM) , Dalle2, Midjourney, BigGAN による偽画像の検出に成功して,提案したIRSのモデルおよびデータに依存しない性質を実験的に確立した。
このデータセットは、高品質の4つのモデルによって生成される100のクラスに対して1,000のサンプルを提供します。
論文 参考訳(メタデータ) (2023-09-26T08:32:55Z) - On the Cultural Gap in Text-to-Image Generation [75.69755281031951]
テキスト・トゥ・イメージ(T2I)生成における課題のひとつは、トレーニングデータに存在する文化ギャップの意図しない反映である。
クロスカルチャー画像を生成するT2Iモデルの能力を体系的に評価するベンチマークは存在しない。
本稿では,モデルが対象文化にどの程度適しているかを評価するため,包括的評価基準付きChallenging Cross-Cultural (C3)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-07-06T13:17:55Z) - Fair Diffusion: Instructing Text-to-Image Generation Models on Fairness [15.059419033330126]
生成テキストから画像への展開後のバイアスを軽減するために,Fair Diffusionと呼ばれる新しい手法を提案する。
具体的には、人間の指示に基づいて、任意の方向にバイアスをシフトさせることで、例えば、アイデンティティグループに対して任意に新しい比率が得られることを示す。
この制御を導入することで、データフィルタリングや追加のトレーニングを必要とせず、公平さで生成イメージモデルを指示することができる。
論文 参考訳(メタデータ) (2023-02-07T18:25:28Z) - Towards Equitable Representation in Text-to-Image Synthesis Models with
the Cross-Cultural Understanding Benchmark (CCUB) Dataset [8.006068032606182]
本稿では,小さいが文化的にキュレートされたデータセットを用いて,テキストと画像の合成を文化的に認識するプライミング手法を提案する。
実験の結果, テキストと画像の両方を用いたプライミングは, 文化的関連性の向上と, 生成画像の攻撃性低下に有効であることが示唆された。
論文 参考訳(メタデータ) (2023-01-28T03:10:33Z) - CAGAN: Text-To-Image Generation with Combined Attention GANs [70.3497683558609]
テキスト記述に基づく写真リアルな画像を生成するために,CAGAN(Combined Attention Generative Adversarial Network)を提案する。
提案されたCAGANは2つの注意モデルを用いている:関連語に条件付きで異なる部分領域を描画する単語注意と、チャネル間の非線形相互作用をキャプチャする絞りと励起の注意である。
スペクトル正規化によるトレーニングの安定化により、提案したCAGANは、CUBデータセット上のISとFID、より困難なCOCOデータセット上のFIDの技術を改良する。
論文 参考訳(メタデータ) (2021-04-26T15:46:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。