論文の概要: K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences
- arxiv url: http://arxiv.org/abs/2408.14468v1
- Date: Mon, 26 Aug 2024 17:58:20 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-27 13:02:15.440116
- Title: K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences
- Title(参考訳): K-Sort Arena: K-wise Human Preferencesによる生成モデルのための効率的で信頼性の高いベンチマーク
- Authors: Zhikai Li, Xuewen Liu, Dongrong Fu, Jianquan Li, Qingyi Gu, Kurt Keutzer, Zhen Dong,
- Abstract要約: モデル比較でユーザー投票を集めるArenaプラットフォームは、モデルと人間の好みをランク付けすることができる。
我々はK-Sort Arenaを紹介した。K-Sort Arenaは、画像とビデオがテキストよりも知覚的直感性が高いという重要な洞察に基づく、効率的で信頼性の高いプラットフォームである。
我々の実験では、K-Sort Arenaは広く使われているELOアルゴリズムと比較して16.3倍高速収束を示す。
- 参考スコア(独自算出の注目度): 30.744662265421788
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The rapid advancement of visual generative models necessitates efficient and reliable evaluation methods. Arena platform, which gathers user votes on model comparisons, can rank models with human preferences. However, traditional Arena methods, while established, require an excessive number of comparisons for ranking to converge and are vulnerable to preference noise in voting, suggesting the need for better approaches tailored to contemporary evaluation challenges. In this paper, we introduce K-Sort Arena, an efficient and reliable platform based on a key insight: images and videos possess higher perceptual intuitiveness than texts, enabling rapid evaluation of multiple samples simultaneously. Consequently, K-Sort Arena employs K-wise comparisons, allowing K models to engage in free-for-all competitions, which yield much richer information than pairwise comparisons. To enhance the robustness of the system, we leverage probabilistic modeling and Bayesian updating techniques. We propose an exploration-exploitation-based matchmaking strategy to facilitate more informative comparisons. In our experiments, K-Sort Arena exhibits 16.3x faster convergence compared to the widely used ELO algorithm. To further validate the superiority and obtain a comprehensive leaderboard, we collect human feedback via crowdsourced evaluations of numerous cutting-edge text-to-image and text-to-video models. Thanks to its high efficiency, K-Sort Arena can continuously incorporate emerging models and update the leaderboard with minimal votes. Our project has undergone several months of internal testing and is now available at https://huggingface.co/spaces/ksort/K-Sort-Arena
- Abstract(参考訳): 視覚生成モデルの急速な進歩は、効率的で信頼性の高い評価方法を必要とする。
モデル比較でユーザー投票を集めるArenaプラットフォームは、モデルと人間の好みをランク付けすることができる。
しかし、伝統的なアリーナ法は確立されているにもかかわらず、ランキングを収束させるには過度な数の比較が必要であり、投票における選好ノイズに弱いため、現代の評価課題に合わせたより良いアプローチの必要性が示唆されている。
本稿では,K-Sort Arenaを紹介する。K-Sort Arenaは,テキストよりも知覚的直感性が高く,同時に複数のサンプルの迅速な評価を可能にする,重要な洞察に基づく,効率的で信頼性の高いプラットフォームである。
その結果、K-ソート・アリーナはK-ワイド比較を採用しており、Kモデルは対比較よりもはるかにリッチな情報が得られる自由対オールの競争に参加することができる。
システムの堅牢性を高めるために,確率的モデリングとベイズ更新技術を活用する。
より情報的な比較を容易にするために,探索探索に基づくマッチング戦略を提案する。
我々の実験では、K-Sort Arenaは広く使われているELOアルゴリズムと比較して16.3倍高速収束を示す。
優位性を更に検証し、包括的リーダーボードを得るため、多数の最先端テキスト・ツー・イメージモデルとテキスト・ツー・ビデオモデルのクラウドソースによる評価により、人間のフィードバックを収集する。
高効率のおかげで、K-Sort Arenaは新興モデルを継続的に取り入れ、最小限の投票でリーダーボードを更新できる。
私たちのプロジェクトは数ヶ月の社内テストを経て,https://huggingface.co/spaces/ksort/K-Sort-Arenaで公開されています。
関連論文リスト
- Curriculum Direct Preference Optimization for Diffusion and Consistency Models [110.08057135882356]
テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新しい拡張版を提案する。
我々のアプローチであるCurriculum DPOは、3つのベンチマークにおける最先端の微調整手法と比較される。
論文 参考訳(メタデータ) (2024-05-22T13:36:48Z) - A State-Space Perspective on Modelling and Inference for Online Skill Rating [1.9253333342733674]
逐次モンテカルロモデルと離散隠れマルコフモデルに基づく新しいアプローチを導入する。
我々は、プレイヤーのスキルを時間変化として表現し、一致した結果が観測量として機能する状態空間モデル視点を提唱する。
我々は,多数の選手や試合にスケールアップする上での課題について検討し,主な近似と縮小を強調した。
論文 参考訳(メタデータ) (2023-08-04T16:03:50Z) - Ranking with Confidence for Large Scale Comparison Data [1.2183405753834562]
本研究では、比較ノイズを考慮した生成データモデルを用いて、ペア比較から高速で正確で情報的なランク付けを行う。
実データでは、PD-Rankは、アクティブな学習方法よりも同じKendallアルゴリズムを達成するのに、計算時間が少ない。
論文 参考訳(メタデータ) (2022-02-03T16:36:37Z) - LDNet: Unified Listener Dependent Modeling in MOS Prediction for
Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。
より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文 参考訳(メタデータ) (2021-10-18T08:52:31Z) - Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise
Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。
本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。
提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文 参考訳(メタデータ) (2021-10-08T13:51:55Z) - Learning-To-Ensemble by Contextual Rank Aggregation in E-Commerce [8.067201256886733]
本稿では,アンサンブルモデルを文脈的ランクアグリゲータに置き換えた新しいラーニング・トゥ・エンサンブル・フレームワークRAEGOを提案する。
RA-EGOは当社のオンラインシステムにデプロイされ、収益を大幅に改善しました。
論文 参考訳(メタデータ) (2021-07-19T03:24:06Z) - Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。
局所探索のための政策勾配は、しばしばランダムな摂動から得られる。
目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文 参考訳(メタデータ) (2021-06-22T16:07:02Z) - One-Shot Neural Ensemble Architecture Search by Diversity-Guided Search
Space Shrinking [97.60915598958968]
本稿では,この2つの課題に対処するワンショットニューラルアンサンブルアーキテクチャサーチ(NEAS)ソリューションを提案する。
最初の課題として,探索空間の縮小を導くために,多様性に基づく新しい指標を導入する。
第2の課題として,異なるモデル間の階層共有を効率向上のために学習する新たな探索次元を実現する。
論文 参考訳(メタデータ) (2021-04-01T16:29:49Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - Active Sampling for Pairwise Comparisons via Approximate Message Passing
and Information Gain Maximization [5.771869590520189]
本稿では、近似メッセージパッシングと期待情報ゲインに基づくアクティブサンプリングアルゴリズムASAPを提案する。
既存の手法と比較して,ASAPは推定スコアの精度が最も高いことを示す。
論文 参考訳(メタデータ) (2020-04-12T20:48:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。