論文の概要: Finding the Subjective Truth: Collecting 2 Million Votes for Comprehensive Gen-AI Model Evaluation
- arxiv url: http://arxiv.org/abs/2409.11904v1
- Date: Wed, 18 Sep 2024 12:02:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-19 17:50:39.181072
- Title: Finding the Subjective Truth: Collecting 2 Million Votes for Comprehensive Gen-AI Model Evaluation
- Title(参考訳): 主観的真実を見つける:総合的ゲン・AIモデル評価のための200万票の収集
- Authors: Dimitrios Christodoulou, Mads Kuhlmann-Jørgensen,
- Abstract要約: 筆者らは4,512枚の画像から200万点以上のアノテーションを収集し,スタイル選好,コヒーレンス,テキスト・ツー・イメージアライメントの4つの顕著なモデルを評価した。
提案手法は,膨大なアノテータのプールに基づいて画像生成モデルを包括的にランク付けすることを可能にする。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Efficiently evaluating the performance of text-to-image models is difficult as it inherently requires subjective judgment and human preference, making it hard to compare different models and quantify the state of the art. Leveraging Rapidata's technology, we present an efficient annotation framework that sources human feedback from a diverse, global pool of annotators. Our study collected over 2 million annotations across 4,512 images, evaluating four prominent models (DALL-E 3, Flux.1, MidJourney, and Stable Diffusion) on style preference, coherence, and text-to-image alignment. We demonstrate that our approach makes it feasible to comprehensively rank image generation models based on a vast pool of annotators and show that the diverse annotator demographics reflect the world population, significantly decreasing the risk of biases.
- Abstract(参考訳): テキスト・ツー・イメージ・モデルの性能を効果的に評価することは、本質的に主観的判断と人間の嗜好を必要とするため困難であり、異なるモデルを比較して最先端の状態を定量化することは困難である。
Rapidataの技術を活用することで、多様なグローバルなアノテータプールから人間のフィードバックを発信する効率的なアノテーションフレームワークを提供する。
我々は4,512枚の画像に200万以上のアノテーションを収集し、スタイルの好み、コヒーレンス、テキスト・ツー・イメージのアライメントについて、DALL-E, Flux.1, MidJourney, Stable Diffusionの4つの顕著なモデル(DALL-E, Flux.1, Staable Diffusion)を評価した。
提案手法は,膨大なアノテータのプールに基づいて画像生成モデルを包括的にランク付けし,多彩なアノテータ人口層が世界人口を反映し,バイアスのリスクを大幅に減少させることを示す。
関連論文リスト
- LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - VHELM: A Holistic Evaluation of Vision Language Models [75.88987277686914]
視覚言語モデル(VHELM)の全体的評価について述べる。
VHELMは、視覚的知覚、知識、推論、バイアス、公平性、多言語性、堅牢性、毒性、安全性の9つの側面の1つ以上をカバーするために、さまざまなデータセットを集約する。
私たちのフレームワークは軽量で自動で、評価の実行が安価で高速に行えるように設計されています。
論文 参考訳(メタデータ) (2024-10-09T17:46:34Z) - EVALALIGN: Supervised Fine-Tuning Multimodal LLMs with Human-Aligned Data for Evaluating Text-to-Image Models [16.18275805302776]
本稿では,その精度,安定性,微粒度を特徴とする計量であるEvalAlignを提案する。
画像の忠実度とテキスト画像のアライメントという2つの重要な側面に焦点を当てた評価プロトコルを開発する。
EvalAlignは、既存のメトリクスよりも人間の好みと密に一致し、モデルアセスメントの有効性と有用性を確認している。
論文 参考訳(メタデータ) (2024-06-24T11:56:15Z) - Multimodal Large Language Model is a Human-Aligned Annotator for Text-to-Image Generation [87.50120181861362]
VisionPreferは高品質できめ細かい選好データセットで、複数の選好面をキャプチャする。
我々は、VisionPrefer上で報酬モデルVP-Scoreをトレーニングし、テキストから画像への生成モデルのトレーニングを指導し、VP-Scoreの嗜好予測精度は人間のアノテーションに匹敵する。
論文 参考訳(メタデータ) (2024-04-23T14:53:15Z) - Confidence-aware Reward Optimization for Fine-tuning Text-to-Image Models [85.96013373385057]
人間のフィードバックデータに基づいて訓練された報酬関数を持つ微調整テキスト・ツー・イメージモデルは、モデル行動と人間の意図との整合性を実証した。
しかし、そのような報酬モデルによる過度な最適化は、単にプロキシの目的として機能し、微調整されたモデルの性能を損なう可能性がある。
本研究では,テキストプロンプトの集合に対して推定された報酬モデル信頼度に基づいてアライメントを強化する手法であるTextNormを提案する。
論文 参考訳(メタデータ) (2024-04-02T11:40:38Z) - TIBET: Identifying and Evaluating Biases in Text-to-Image Generative Models [22.076898042211305]
我々は、任意のTTIモデルと任意のプロンプトに対して、幅広いバイアススペクトルを研究、定量化するための一般的なアプローチを提案する。
我々の手法は、与えられたプロンプトに関連する可能性のある潜在的なバイアスを自動的に識別し、それらのバイアスを測定する。
本研究では,本手法が意味論的概念を通じて複雑な多次元バイアスを説明できることを示す。
論文 参考訳(メタデータ) (2023-12-03T02:31:37Z) - Holistic Evaluation of Text-To-Image Models [153.47415461488097]
我々はテキスト・ツー・イメージ・モデル(HEIM)の全体的評価という新しいベンチマークを導入する。
テキスト・イメージ・アライメント、画像品質、美学、独創性、推論、知識、バイアス、毒性、公正性、堅牢性、多言語性、効率性を含む12の側面を識別する。
以上の結果から,異なるモデルが異なる強みを示すことにより,すべての面において単一のモデルが優れているものはないことが明らかとなった。
論文 参考訳(メタデータ) (2023-11-07T19:00:56Z) - Exploring the Robustness of Human Parsers Towards Common Corruptions [99.89886010550836]
我々は,LIP-C,ATR-C,Pascal-Person-Part-Cという3つの汚職堅牢性ベンチマークを構築し,人間の解析モデルのリスク許容度を評価する。
データ強化戦略に触発されて、一般に破損した条件下で頑健性を高めるための新しい異種強化機構を提案する。
論文 参考訳(メタデータ) (2023-09-02T13:32:14Z) - MiVOLO: Multi-input Transformer for Age and Gender Estimation [0.0]
最新の視覚変換器を用いた年齢・性別推定手法であるMiVOLOを提案する。
本手法は両タスクを統合された二重入力/出力モデルに統合する。
モデルの年齢認識性能を人間レベルの精度と比較し、ほとんどの年齢範囲で人間よりも優れていることを示す。
論文 参考訳(メタデータ) (2023-07-10T14:58:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。