論文の概要: K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences
- arxiv url: http://arxiv.org/abs/2408.14468v1
- Date: Mon, 26 Aug 2024 17:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:02:15.440116
- Title: K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences
- Title(参考訳): K-Sort Arena: K-wise Human Preferencesによる生成モデルのための効率的で信頼性の高いベンチマーク
- Authors: Zhikai Li, Xuewen Liu, Dongrong Fu, Jianquan Li, Qingyi Gu, Kurt Keutzer, Zhen Dong,
- Abstract要約: モデル比較でユーザー投票を集めるArenaプラットフォームは、モデルと人間の好みをランク付けすることができる。
我々はK-Sort Arenaを紹介した。K-Sort Arenaは、画像とビデオがテキストよりも知覚的直感性が高いという重要な洞察に基づく、効率的で信頼性の高いプラットフォームである。
我々の実験では、K-Sort Arenaは広く使われているELOアルゴリズムと比較して16.3倍高速収束を示す。
- 参考スコア(独自算出の注目度): 30.744662265421788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of visual generative models necessitates efficient and reliable evaluation methods. Arena platform, which gathers user votes on model comparisons, can rank models with human preferences. However, traditional Arena methods, while established, require an excessive number of comparisons for ranking to converge and are vulnerable to preference noise in voting, suggesting the need for better approaches tailored to contemporary evaluation challenges. In this paper, we introduce K-Sort Arena, an efficient and reliable platform based on a key insight: images and videos possess higher perceptual intuitiveness than texts, enabling rapid evaluation of multiple samples simultaneously. Consequently, K-Sort Arena employs K-wise comparisons, allowing K models to engage in free-for-all competitions, which yield much richer information than pairwise comparisons. To enhance the robustness of the system, we leverage probabilistic modeling and Bayesian updating techniques. We propose an exploration-exploitation-based matchmaking strategy to facilitate more informative comparisons. In our experiments, K-Sort Arena exhibits 16.3x faster convergence compared to the widely used ELO algorithm. To further validate the superiority and obtain a comprehensive leaderboard, we collect human feedback via crowdsourced evaluations of numerous cutting-edge text-to-image and text-to-video models. Thanks to its high efficiency, K-Sort Arena can continuously incorporate emerging models and update the leaderboard with minimal votes. Our project has undergone several months of internal testing and is now available at https://huggingface.co/spaces/ksort/K-Sort-Arena
- Abstract(参考訳): 視覚生成モデルの急速な進歩は、効率的で信頼性の高い評価方法を必要とする。
モデル比較でユーザー投票を集めるArenaプラットフォームは、モデルと人間の好みをランク付けすることができる。
しかし、伝統的なアリーナ法は確立されているにもかかわらず、ランキングを収束させるには過度な数の比較が必要であり、投票における選好ノイズに弱いため、現代の評価課題に合わせたより良いアプローチの必要性が示唆されている。
本稿では,K-Sort Arenaを紹介する。K-Sort Arenaは,テキストよりも知覚的直感性が高く,同時に複数のサンプルの迅速な評価を可能にする,重要な洞察に基づく,効率的で信頼性の高いプラットフォームである。
その結果、K-ソート・アリーナはK-ワイド比較を採用しており、Kモデルは対比較よりもはるかにリッチな情報が得られる自由対オールの競争に参加することができる。
システムの堅牢性を高めるために,確率的モデリングとベイズ更新技術を活用する。
より情報的な比較を容易にするために,探索探索に基づくマッチング戦略を提案する。
我々の実験では、K-Sort Arenaは広く使われているELOアルゴリズムと比較して16.3倍高速収束を示す。
優位性を更に検証し、包括的リーダーボードを得るため、多数の最先端テキスト・ツー・イメージモデルとテキスト・ツー・ビデオモデルのクラウドソースによる評価により、人間のフィードバックを収集する。
高効率のおかげで、K-Sort Arenaは新興モデルを継続的に取り入れ、最小限の投票でリーダーボードを更新できる。
私たちのプロジェクトは数ヶ月の社内テストを経て,https://huggingface.co/spaces/ksort/K-Sort-Arenaで公開されています。
関連論文リスト
- A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。
まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。
第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。
第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文 参考訳(メタデータ) (2024-12-24T12:54:19Z) - Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。
本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。
1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文 参考訳(メタデータ) (2024-12-10T18:52:39Z) - Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models [0.29687381456164]
VARCO Arenaは、大規模言語モデルのための新しく、費用対効果が高く、堅牢なベンチマーク手法である。
VARCO Arenaは信頼性の高いLCMランキングを生成するだけでなく、質的評価のためのスケーラブルで適応可能なソリューションを提供する。
論文 参考訳(メタデータ) (2024-11-02T15:23:28Z) - Curriculum Direct Preference Optimization for Diffusion and Consistency Models [110.08057135882356]
テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新しい拡張版を提案する。
我々のアプローチであるCurriculum DPOは、3つのベンチマークにおける最先端の微調整手法と比較される。
論文 参考訳(メタデータ) (2024-05-22T13:36:48Z) - A State-Space Perspective on Modelling and Inference for Online Skill Rating [1.9253333342733674]
逐次モンテカルロモデルと離散隠れマルコフモデルに基づく新しいアプローチを導入する。
我々は、プレイヤーのスキルを時間変化として表現し、一致した結果が観測量として機能する状態空間モデル視点を提唱する。
我々は,多数の選手や試合にスケールアップする上での課題について検討し,主な近似と縮小を強調した。
論文 参考訳(メタデータ) (2023-08-04T16:03:50Z) - Ranking with Confidence for Large Scale Comparison Data [2.486161976966064]
本研究では、比較ノイズを考慮した生成データモデルを用いて、ペア比較から高速で正確で情報的なランク付けを行う。
実データでは、PD-Rankは、アクティブな学習方法よりも同じKendallアルゴリズムを達成するのに、計算時間が少ない。
論文 参考訳(メタデータ) (2022-02-03T16:36:37Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Active Sampling for Pairwise Comparisons via Approximate Message Passing
and Information Gain Maximization [5.771869590520189]
本稿では、近似メッセージパッシングと期待情報ゲインに基づくアクティブサンプリングアルゴリズムASAPを提案する。
既存の手法と比較して,ASAPは推定スコアの精度が最も高いことを示す。
論文 参考訳(メタデータ) (2020-04-12T20:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。