論文の概要: Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image
Generation
- arxiv url: http://arxiv.org/abs/2305.01569v1
- Date: Tue, 2 May 2023 16:18:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-03 13:50:03.889730
- Title: Pick-a-Pic: An Open Dataset of User Preferences for Text-to-Image
Generation
- Title(参考訳): Pick-a-Pic: テキスト対画像生成のためのユーザ嗜好のオープンデータセット
- Authors: Yuval Kirstain and Adam Polyak and Uriel Singer and Shahbuland Matiana
and Joe Penna and Omer Levy
- Abstract要約: ユーザが画像を生成し、好みを指定できるWebアプリを作成します。
このWebアプリを使ってPick-a-Picという,テキストと画像のプロンプトの大規模でオープンなデータセットを構築します。
このデータセットを利用して、CLIPベースのスコアリング機能であるPickScoreをトレーニングし、人間の好みを予測するタスクにおいて、超人的なパフォーマンスを示す。
- 参考スコア(独自算出の注目度): 39.05089152070279
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The ability to collect a large dataset of human preferences from
text-to-image users is usually limited to companies, making such datasets
inaccessible to the public. To address this issue, we create a web app that
enables text-to-image users to generate images and specify their preferences.
Using this web app we build Pick-a-Pic, a large, open dataset of text-to-image
prompts and real users' preferences over generated images. We leverage this
dataset to train a CLIP-based scoring function, PickScore, which exhibits
superhuman performance on the task of predicting human preferences. Then, we
test PickScore's ability to perform model evaluation and observe that it
correlates better with human rankings than other automatic evaluation metrics.
Therefore, we recommend using PickScore for evaluating future text-to-image
generation models, and using Pick-a-Pic prompts as a more relevant dataset than
MS-COCO. Finally, we demonstrate how PickScore can enhance existing
text-to-image models via ranking.
- Abstract(参考訳): テキスト・ツー・イメージのユーザから人間の好みの大規模なデータセットを収集する能力は通常、企業に限定されており、そのようなデータセットは一般にはアクセスできない。
この問題に対処するため,テキスト・ツー・イメージのユーザが画像を生成し,好みを指定できるWebアプリを開発した。
このWebアプリを使ってPick-a-Picという,テキストと画像のプロンプトの大規模でオープンなデータセットを構築します。
このデータセットを利用して、CLIPベースのスコアリング機能PickScoreをトレーニングし、人間の好みを予測するタスクで超人的なパフォーマンスを示す。
次に、モデル評価を行うPickScoreの能力を検証し、他の自動評価指標よりも人格との相関が優れていることを観察する。
そこで我々は、将来のテキスト・画像生成モデルの評価にPickScoreを使うこと、MS-COCOよりも関連するデータセットとしてPick-a-Picプロンプトを使用することを推奨する。
最後に、PickScoreが既存のテキスト・ツー・イメージモデルをどのように強化できるかをランキングで示す。
関連論文リスト
- Scalable Ranked Preference Optimization for Text-to-Image Generation [76.16285931871948]
DPOトレーニングのための大規模および完全合成データセット収集のためのスケーラブルなアプローチについて検討する。
ペア画像の嗜好は、事前訓練された報酬関数を用いて生成され、アノテーションプロセスに人間を巻き込む必要がなくなる。
ランキングフィードバックを用いてDPOに基づく手法を強化するためにRandonDPOを導入する。
論文 参考訳(メタデータ) (2024-10-23T16:42:56Z) - CLIP-Branches: Interactive Fine-Tuning for Text-Image Retrieval [2.381261552604303]
CLIPアーキテクチャ上に構築された新しいテキストイメージ検索エンジンであるCLIP-Branchesを紹介する。
本手法は,インタラクティブな微調整フェーズを組み込むことにより,従来のテキスト画像検索エンジンを強化する。
この結果から, 微調整により, 検索結果の関連性や精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-06-19T08:15:10Z) - Toffee: Efficient Million-Scale Dataset Construction for Subject-Driven Text-to-Image Generation [58.09421301921607]
我々は、主観的画像編集と生成のための最初の大規模データセットを構築した。
データセットは、以前の最大のデータセットの5倍のサイズですが、コストは、何万時間も低いです。
論文 参考訳(メタデータ) (2024-06-13T16:40:39Z) - Human Preference Score v2: A Solid Benchmark for Evaluating Human
Preferences of Text-to-Image Synthesis [38.70605308204128]
近年のテキスト・ツー・イメージ生成モデルでは,テキスト入力から高忠実度画像を生成することができる。
HPD v2は、幅広いソースの画像上の人間の好みをキャプチャする。
HPD v2は、433,760対の画像に対して798,090人の好みの選択を含む。
論文 参考訳(メタデータ) (2023-06-15T17:59:31Z) - Human Preference Score: Better Aligning Text-to-Image Models with Human
Preference [41.270068272447055]
我々は、Stable Foundation Discordチャネルから生成された画像に基づいて、人間の選択のデータセットを収集する。
本実験は, 生成モデルに対する現在の評価指標が, 人間の選択とよく相関しないことを示した。
本研究では,人間の好みに合わせて安定拡散を適応する簡易かつ効果的な手法を提案する。
論文 参考訳(メタデータ) (2023-03-25T10:09:03Z) - ClipCrop: Conditioned Cropping Driven by Vision-Language Model [90.95403416150724]
我々は、堅牢でユーザ意図的な収穫アルゴリズムを構築する基盤として、視覚言語モデルを活用している。
そこで本研究では,ユーザの意図を反映したテキストや画像クエリを用いて,トリミングを行う手法を開発した。
私たちのパイプライン設計では、小さなデータセットでテキスト条件の美学を学習することができます。
論文 参考訳(メタデータ) (2022-11-21T14:27:07Z) - Scrape, Cut, Paste and Learn: Automated Dataset Generation Applied to
Parcel Logistics [58.720142291102135]
4つのステップでインスタンスセグメンテーションのための合成データセットを生成するために,完全に自動化されたパイプラインを提案する。
まず、人気のある画像検索エンジンから興味ある対象の画像を抽出する。
画像選択には,オブジェクトに依存しない事前処理,手動画像選択,CNNに基づく画像選択の3つの方法を比較する。
論文 参考訳(メタデータ) (2022-10-18T12:49:04Z) - Personalized Image Semantic Segmentation [58.980245748434]
ラベルのないパーソナライズされた画像に対して、データのパーソナライズされた特徴を調査することにより、より正確なセグメンテーション結果を生成する。
画像のセグメント化時に画像間コンテキストを組み込んだベースライン手法を提案する。
コードとPSSデータセットは公開されます。
論文 参考訳(メタデータ) (2021-07-24T04:03:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。