論文の概要: GenAI Arena: An Open Evaluation Platform for Generative Models
- arxiv url: http://arxiv.org/abs/2406.04485v1
- Date: Thu, 6 Jun 2024 20:15:42 GMT
- ステータス: 処理完了
- システム内更新日: 2024-06-10 18:07:23.104181
- Title: GenAI Arena: An Open Evaluation Platform for Generative Models
- Title(参考訳): GenAI Arena: 生成モデルのためのオープンな評価プラットフォーム
- Authors: Dongfu Jiang, Max Ku, Tianle Li, Yuansheng Ni, Shizhuo Sun, Rongqi Fan, Wenhu Chen,
- Abstract要約: 本稿では,異なる画像および映像生成モデルを評価するためのオープンプラットフォームGenAI-Arenaを提案する。
GenAI-Arenaは、より民主的で正確なモデルパフォーマンスの指標を提供することを目指している。
テキスト・ツー・イメージ・ジェネレーション、テキスト・ツー・ビデオ・ジェネレーション、画像編集の3つのアリーナをカバーしている。
- 参考スコア(独自算出の注目度): 33.246432399321826
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Generative AI has made remarkable strides to revolutionize fields such as image and video generation. These advancements are driven by innovative algorithms, architecture, and data. However, the rapid proliferation of generative models has highlighted a critical gap: the absence of trustworthy evaluation metrics. Current automatic assessments such as FID, CLIP, FVD, etc often fail to capture the nuanced quality and user satisfaction associated with generative outputs. This paper proposes an open platform GenAI-Arena to evaluate different image and video generative models, where users can actively participate in evaluating these models. By leveraging collective user feedback and votes, GenAI-Arena aims to provide a more democratic and accurate measure of model performance. It covers three arenas for text-to-image generation, text-to-video generation, and image editing respectively. Currently, we cover a total of 27 open-source generative models. GenAI-Arena has been operating for four months, amassing over 6000 votes from the community. We describe our platform, analyze the data, and explain the statistical methods for ranking the models. To further promote the research in building model-based evaluation metrics, we release a cleaned version of our preference data for the three tasks, namely GenAI-Bench. We prompt the existing multi-modal models like Gemini, GPT-4o to mimic human voting. We compute the correlation between model voting with human voting to understand their judging abilities. Our results show existing multimodal models are still lagging in assessing the generated visual content, even the best model GPT-4o only achieves a Pearson correlation of 0.22 in the quality subscore, and behaves like random guessing in others.
- Abstract(参考訳): 生成AIは、画像やビデオ生成などの分野に革命を起こすために、目覚ましい努力をしてきた。
これらの進歩は革新的なアルゴリズム、アーキテクチャ、データによって駆動される。
しかし、生成モデルの急速な普及は、信頼に値する評価指標の欠如という重大なギャップを浮き彫りにした。
FID、CLIP、FVDなどの現在の自動評価は、生成出力に関連する微妙な品質とユーザの満足度を捉えるのに失敗することが多い。
本稿では,様々な画像および映像生成モデルを評価するためのオープンプラットフォームGenAI-Arenaを提案する。
GenAI-Arenaは、ユーザからのフィードバックと投票の集合を利用して、より民主的で正確なモデルパフォーマンス測定を提供することを目指している。
テキスト・ツー・イメージ・ジェネレーション、テキスト・ツー・ビデオ・ジェネレーション、画像編集の3つのアリーナをカバーしている。
現在、27のオープンソース生成モデルをカバーしています。
GenAI-Arenaは4ヶ月前から運営しており、コミュニティから6000票以上を集めている。
当社のプラットフォームを記述し、データを解析し、モデルランキングの統計手法を説明します。
モデルに基づく評価指標の構築に関する研究をさらに促進するため,GenAI-Benchという3つのタスクの選好データのクリーン化版をリリースする。
GeminiやGPT-4oのような既存のマルチモーダルモデルに、人間の投票を模倣するよう促します。
モデル投票と人投票の相関関係を計算し,その判断能力について考察する。
GPT-4oの最適モデルでさえ、品質サブスコアの0.22のピアソン相関を達成でき、他人のランダムな推測のように振る舞う。
関連論文リスト
- GenAI-Bench: Evaluating and Improving Compositional Text-to-Visual Generation [103.3465421081531]
VQAScoreは、VQAモデルが画像がプロンプトを正確に描写しているとみなす可能性を測定するメトリクスである。
VQAScoreによるランク付けは、PickScore、HPSv2、ImageRewardなどの他のスコアリング方法よりも2倍から3倍効果的である。
我々は、同じプロンプトから生成されたランキング画像のメトリクスを評価するために、4万以上の人間格付けを備えた新しいGenAI-Rankベンチマークをリリースする。
論文 参考訳(メタデータ) (2024-06-19T18:00:07Z) - On the Role of Edge Dependency in Graph Generative Models [28.203109773986167]
本稿では,グラフ生成モデルのための新しい評価フレームワークを提案する。
我々は、精度とエッジの多様性の両方を保証するために、モデル生成グラフの重複の重要性に焦点をあてる。
我々の単純な解釈可能なモデルが、一般的な生成モデルと競合するベースラインを提供することを示す。
論文 参考訳(メタデータ) (2023-12-06T18:54:27Z) - EvalCrafter: Benchmarking and Evaluating Large Video Generation Models [70.19437817951673]
これらのモデルはしばしば、マルチアスペクト能力を持つ非常に大きなデータセットで訓練されているので、単純な指標から大きな条件生成モデルを判断することは困難である、と我々は主張する。
我々のアプローチは、テキスト・ツー・ビデオ生成のための700のプロンプトの多種多様な包括的リストを作成することである。
そこで我々は、視覚的品質、コンテンツ品質、動作品質、テキスト・ビデオアライメントの観点から、慎重に設計されたベンチマークに基づいて、最先端のビデオ生成モデルを評価する。
論文 参考訳(メタデータ) (2023-10-17T17:50:46Z) - MMBench: Is Your Multi-modal Model an All-around Player? [114.45702807380415]
大規模な視覚言語モデルを評価する方法は依然として大きな障害であり、将来のモデル開発を妨げる。
従来のベンチマークは、定量的なパフォーマンス測定を提供するが、きめ細かい能力評価と非破壊評価の指標が欠如している。
近年のOwlEvalのような主観的ベンチマークは、人間の労働を取り入れたモデル能力の包括的な評価を提供するが、それらはスケーラブルではなく、重大なバイアスを示す。
MMBenchは、視覚言語モデルの様々な能力を頑健に評価するための、体系的に設計された客観的ベンチマークである。
論文 参考訳(メタデータ) (2023-07-12T16:23:09Z) - Exposing flaws of generative model evaluation metrics and their unfair
treatment of diffusion models [14.330863905963442]
生成モデルの全体的な性能、忠実度、多様性、希少性、記憶度を評価するための17の現代的な指標を比較した。
ヒトが判断する拡散モデルの最先端の知覚現実性は、FIDのような一般的に報告されている指標には反映されない。
次に、データ記憶の研究を行い、生成モデルは、CIFAR10のような単純で小さなデータセットでトレーニング例を記憶するが、ImageNetのようなより複雑なデータセットでは必ずしも記憶しない。
論文 参考訳(メタデータ) (2023-06-07T18:00:00Z) - Composing Ensembles of Pre-trained Models via Iterative Consensus [95.10641301155232]
本稿では,異なる事前学習モデルのアンサンブルを構成するための統一的なフレームワークを提案する。
事前学習したモデルを「ジェネレータ」あるいは「スコーラ」として使用し、クローズドループ反復コンセンサス最適化により構成する。
スコアラーのアンサンブルによって達成されたコンセンサスは、シングルスコアラーのフィードバックよりも優れていることを示す。
論文 参考訳(メタデータ) (2022-10-20T18:46:31Z) - MEGA: Model Stealing via Collaborative Generator-Substitute Networks [4.065949099860426]
近年のデータフリーモデルステイティングメソッドは,実際のクエリの例を使わずに,ターゲットモデルの知識を抽出するために有効であることが示されている。
本稿では,データフリーモデルステーリングフレームワーク(MEGA)を提案する。
以上の結果から,我々の訓練した代替モデルの精度と敵攻撃成功率は,最先端のデータフリーブラックボックス攻撃よりも最大で33%,40%高い値となる可能性が示唆された。
論文 参考訳(メタデータ) (2022-01-31T09:34:28Z) - Improving Label Quality by Jointly Modeling Items and Annotators [68.8204255655161]
雑音アノテータから基底真理ラベルを学習するための完全ベイズ的枠組みを提案する。
我々のフレームワークは、ラベル分布上の生成的ベイズソフトクラスタリングモデルを古典的なDavidとSkeneのジョイントアノテータデータモデルに分解することでスケーラビリティを保証する。
論文 参考訳(メタデータ) (2021-06-20T02:15:20Z) - AvgOut: A Simple Output-Probability Measure to Eliminate Dull Responses [97.50616524350123]
機能エンジニアリングなしで、どの発話やトークンが退屈であるかを動的に認識する対話モデルを構築します。
最初のモデルMinAvgOutは、各バッチの出力分布を通して、ダイバーシティスコアを直接最大化する。
第2のモデルであるラベルファインチューニング(LFT)は、多様性スコアによって連続的にスケールされたラベルをソースシーケンスにプリペイドし、多様性レベルを制御する。
3つ目のモデルであるRLは強化学習を採用し、多様性スコアを報奨信号として扱う。
論文 参考訳(メタデータ) (2020-01-15T18:32:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。