論文の概要: GenArena: How Can We Achieve Human-Aligned Evaluation for Visual Generation Tasks?
- arxiv url: http://arxiv.org/abs/2602.06013v1
- Date: Thu, 05 Feb 2026 18:52:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:09.137565
- Title: GenArena: How Can We Achieve Human-Aligned Evaluation for Visual Generation Tasks?
- Title(参考訳): GenArena: 視覚生成タスクに対するヒューマンアライメント評価をどうやって達成できるのか?
- Authors: Ruihang Li, Leigang Qu, Jingxu Zhang, Dongnan Gui, Mengde Xu, Xiaosong Zhang, Han Hu, Wenjie Wang, Jiaqi Wang,
- Abstract要約: 我々は、ペアワイズ比較パラダイムを活用する統一評価フレームワークを導入し、安定的かつ人道的な評価を確実にする。
提案手法は,評価精度を20%以上向上し,信頼性の高いLMArenaリーダボードとSpearmanの0.86の相関性を実現する。
- 参考スコア(独自算出の注目度): 29.804627410258732
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid advancement of visual generation models has outpaced traditional evaluation approaches, necessitating the adoption of Vision-Language Models as surrogate judges. In this work, we systematically investigate the reliability of the prevailing absolute pointwise scoring standard, across a wide spectrum of visual generation tasks. Our analysis reveals that this paradigm is limited due to stochastic inconsistency and poor alignment with human perception. To resolve these limitations, we introduce GenArena, a unified evaluation framework that leverages a pairwise comparison paradigm to ensure stable and human-aligned evaluation. Crucially, our experiments uncover a transformative finding that simply adopting this pairwise protocol enables off-the-shelf open-source models to outperform top-tier proprietary models. Notably, our method boosts evaluation accuracy by over 20% and achieves a Spearman correlation of 0.86 with the authoritative LMArena leaderboard, drastically surpassing the 0.36 correlation of pointwise methods. Based on GenArena, we benchmark state-of-the-art visual generation models across diverse tasks, providing the community with a rigorous and automated evaluation standard for visual generation.
- Abstract(参考訳): 視覚生成モデルの急速な進歩は従来の評価手法を上回り、代理審査員として視覚言語モデルを採用する必要がある。
本研究では,視覚生成タスクの幅広い範囲にわたって,定点評価標準の信頼性を体系的に検討する。
分析の結果,このパラダイムは確率的不整合と人間の知覚との整合性が低いために制限されていることが明らかとなった。
これらの制約を解決するために、我々は、ペアワイズ比較パラダイムを活用する統一評価フレームワークGenArenaを導入する。
重要なことに、我々の実験は、このペアワイズプロトコルを採用するだけで、既製のオープンソースモデルがトップクラスのプロプライエタリモデルより優れているという、変革的な発見を明らかにしました。
特に,提案手法は評価精度を20%以上向上し,信頼性の高いLMArenaリーダボードとSpearmanの0.86の相関を達成し,ポイントワイド手法の0.36の相関を大幅に上回る結果となった。
GenArenaに基づいて、さまざまなタスクにまたがって最先端のビジュアル生成モデルをベンチマークし、ビジュアル生成のための厳格で自動化された評価標準をコミュニティに提供する。
関連論文リスト
- Appreciate the View: A Task-Aware Evaluation Framework for Novel View Synthesis [15.922599086027098]
新規ビュー合成(NVS)は、未知の視点から与えられたコンテンツのリアルな画像を生成することを目的としている。
既存の評価指標は、生成したイメージが現実的であり、ソースビューに忠実であるかどうかを評価するのに苦労する。
本稿では、参照ベースのスコア、D_textPRISM$、参照なしスコア、$textMMD_textPRISM$の2つの相補的評価指標を紹介する。
論文 参考訳(メタデータ) (2025-11-16T16:28:08Z) - Gesture Generation (Still) Needs Improved Human Evaluation Practices: Insights from a Community-Driven State-of-the-Art Benchmark [55.41250396114216]
音声認識による3Dジェスチャー生成における人的評価の実践について検討する。
本稿では,広範に使用されているBEAT2モーションキャプチャーデータセットの詳細な評価プロトコルを提案する。
論文 参考訳(メタデータ) (2025-11-03T05:17:28Z) - ArtifactsBench: Bridging the Visual-Interactive Gap in LLM Code Generation Evaluation [51.297873393639456]
ArtifactsBenchは自動ビジュアルコード生成評価のためのフレームワークである。
我々のフレームワークは、生成した各アーティファクトをレンダリングし、時間的スクリーンショットを通してその動的な振る舞いをキャプチャする。
我々は1,825の多様なタスクの新しいベンチマークを構築し、30以上の主要な大規模言語モデルを評価する。
論文 参考訳(メタデータ) (2025-07-07T12:53:00Z) - Establishing a Unified Evaluation Framework for Human Motion Generation: A Comparative Analysis of Metrics [6.708543240320757]
本稿では,人体動作生成のための8つの評価指標について詳細に検討する。
我々は一貫したモデル比較を容易にするため、統一的な評価設定を通じて標準化されたプラクティスを提案する。
変形する多様性を分析して時間歪みの多様性を評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2024-05-13T12:10:57Z) - GREAT Score: Global Robustness Evaluation of Adversarial Perturbation using Generative Models [60.48306899271866]
GREATスコア(GREAT Score)と呼ばれる新しいフレームワークを提案する。
我々は,ロバストベンチにおける攻撃ベースモデルと比較し,高い相関性を示し,GREATスコアのコストを大幅に削減した。
GREAT Scoreは、プライバシーに敏感なブラックボックスモデルのリモート監査に使用することができる。
論文 参考訳(メタデータ) (2023-04-19T14:58:27Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。