Fugu-MT 論文翻訳(概要): K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences

論文の概要: K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences

arxiv url: http://arxiv.org/abs/2408.14468v1
Date: Mon, 26 Aug 2024 17:58:20 GMT
ステータス: 翻訳完了
システム内更新日: 2024-08-27 13:02:15.440116
Title: K-Sort Arena: Efficient and Reliable Benchmarking for Generative Models via K-wise Human Preferences
Title（参考訳）: K-Sort Arena: K-wise Human Preferencesによる生成モデルのための効率的で信頼性の高いベンチマーク
Authors: Zhikai Li, Xuewen Liu, Dongrong Fu, Jianquan Li, Qingyi Gu, Kurt Keutzer, Zhen Dong,
Abstract要約: モデル比較でユーザー投票を集めるArenaプラットフォームは、モデルと人間の好みをランク付けすることができる。我々はK-Sort Arenaを紹介した。K-Sort Arenaは、画像とビデオがテキストよりも知覚的直感性が高いという重要な洞察に基づく、効率的で信頼性の高いプラットフォームである。我々の実験では、K-Sort Arenaは広く使われているELOアルゴリズムと比較して16.3倍高速収束を示す。
参考スコア（独自算出の注目度）: 30.744662265421788
License: http://creativecommons.org/licenses/by/4.0/
Abstract: The rapid advancement of visual generative models necessitates efficient and reliable evaluation methods. Arena platform, which gathers user votes on model comparisons, can rank models with human preferences. However, traditional Arena methods, while established, require an excessive number of comparisons for ranking to converge and are vulnerable to preference noise in voting, suggesting the need for better approaches tailored to contemporary evaluation challenges. In this paper, we introduce K-Sort Arena, an efficient and reliable platform based on a key insight: images and videos possess higher perceptual intuitiveness than texts, enabling rapid evaluation of multiple samples simultaneously. Consequently, K-Sort Arena employs K-wise comparisons, allowing K models to engage in free-for-all competitions, which yield much richer information than pairwise comparisons. To enhance the robustness of the system, we leverage probabilistic modeling and Bayesian updating techniques. We propose an exploration-exploitation-based matchmaking strategy to facilitate more informative comparisons. In our experiments, K-Sort Arena exhibits 16.3x faster convergence compared to the widely used ELO algorithm. To further validate the superiority and obtain a comprehensive leaderboard, we collect human feedback via crowdsourced evaluations of numerous cutting-edge text-to-image and text-to-video models. Thanks to its high efficiency, K-Sort Arena can continuously incorporate emerging models and update the leaderboard with minimal votes. Our project has undergone several months of internal testing and is now available at https://huggingface.co/spaces/ksort/K-Sort-Arena
Abstract（参考訳）: 視覚生成モデルの急速な進歩は、効率的で信頼性の高い評価方法を必要とする。モデル比較でユーザー投票を集めるArenaプラットフォームは、モデルと人間の好みをランク付けすることができる。しかし、伝統的なアリーナ法は確立されているにもかかわらず、ランキングを収束させるには過度な数の比較が必要であり、投票における選好ノイズに弱いため、現代の評価課題に合わせたより良いアプローチの必要性が示唆されている。本稿では,K-Sort Arenaを紹介する。K-Sort Arenaは,テキストよりも知覚的直感性が高く,同時に複数のサンプルの迅速な評価を可能にする,重要な洞察に基づく,効率的で信頼性の高いプラットフォームである。その結果、K-ソート・アリーナはK-ワイド比較を採用しており、Kモデルは対比較よりもはるかにリッチな情報が得られる自由対オールの競争に参加することができる。システムの堅牢性を高めるために,確率的モデリングとベイズ更新技術を活用する。より情報的な比較を容易にするために,探索探索に基づくマッチング戦略を提案する。我々の実験では、K-Sort Arenaは広く使われているELOアルゴリズムと比較して16.3倍高速収束を示す。優位性を更に検証し、包括的リーダーボードを得るため、多数の最先端テキスト・ツー・イメージモデルとテキスト・ツー・ビデオモデルのクラウドソースによる評価により、人間のフィードバックを収集する。高効率のおかげで、K-Sort Arenaは新興モデルを継続的に取り入れ、最小限の投票でリーダーボードを更新できる。私たちのプロジェクトは数ヶ月の社内テストを経て,https://huggingface.co/spaces/ksort/K-Sort-Arenaで公開されています。

関連論文リスト

K-Sort Eval: Efficient Preference Evaluation for Visual Generation via Corrected VLM-as-a-Judge [51.93484138861584]
視覚生成モデルの急速な開発により、よりスケーラブルで人間に合わせた評価方法の必要性が高まっている。 K-Sort Evalは,後方補正と動的マッチングを統合した信頼性と効率的なVLMに基づく評価フレームワークである。実験の結果、K-Sort EvalはK-Sort Arenaと一致した評価結果を提供する。
論文参考訳（メタデータ） (2026-02-10T05:07:46Z)
Q-Save: Towards Scoring and Attribution for Generated Video Evaluation [65.83319736145869]
本稿では,AIGV品質の総合評価のためのベンチマークデータセットとモデルであるQ-Saveを紹介する。データセットには10000近いビデオが含まれており、それぞれにスカラー平均評価スコア(MOS)と微粒な属性ラベルが付与されている。品質評価と属性に基づく説明を共同で行う統一評価モデルを提案する。
論文参考訳（メタデータ） (2025-11-24T07:00:21Z)
Inclusion Arena: An Open Platform for Evaluating Large Foundation Models with Real-World Apps [33.86371712677534]
大規模言語モデル(LLMs)とマルチモーダル大規模言語モデル(MLLMs)は、AI機能の新たな時代を支えている。 Inclusion Arenaは、アプリケーションから直接収集された人間のフィードバックに基づいてモデルをランク付けする、ライブのリーダーボードです。
論文参考訳（メタデータ） (2025-08-15T13:00:07Z)
RewardBench 2: Advancing Reward Model Evaluation [71.65938693914153]
リワードモデルは、好みのデータからニュアンスされた信号をキャプチャするために、言語モデルの訓練後を通して使用される。コミュニティは報酬モデルを評価するためのベストプラクティスを確立し始めている。本稿では,新しいマルチスキル報酬モデルベンチマークであるRewardBench 2を紹介する。
論文参考訳（メタデータ） (2025-06-02T17:54:04Z)
Decentralized Arena: Towards Democratic and Scalable Automatic Evaluation of Language Models [66.51871176061195]
Decentralized Arena (dearena) は,すべての大規模言語モデルからの集合的インテリジェンスを活用して相互評価を行う,完全に自動化されたフレームワークである。人の判断と最大で97%の相関を保ちコストを大幅に削減します
論文参考訳（メタデータ） (2025-05-19T07:34:25Z)
A Statistical Framework for Ranking LLM-Based Chatbots [57.59268154690763]
本稿では、ペア比較分析における特定の課題に対処するために、重要な進歩を取り入れた統計フレームワークを提案する。まず,人力比較のグルーピング処理能力を高める要因付きタイモデルを提案する。第2に、フレームワークを拡張して、競合間の共分散層をモデル化することで、パフォーマンス関係に関するより深い洞察を可能にします。第三に、パラメータ非特異性に起因する最適化の課題を、新しい制約を導入することで解決する。
論文参考訳（メタデータ） (2024-12-24T12:54:19Z)
Evaluation Agent: Efficient and Promptable Evaluation Framework for Visual Generative Models [51.067146460271466]
視覚生成モデルの評価には時間を要するし、計算コストもかかる。本研究では,効率的,動的,多ラウンドな評価に人間的な戦略を用いる評価エージェントフレームワークを提案する。 1)効率性、2)多様なユーザニーズに合わせた迅速な評価、3)1つの数値スコア以上の説明可能性、4)さまざまなモデルやツールのスケーラビリティ。
論文参考訳（メタデータ） (2024-12-10T18:52:39Z)
Varco Arena: A Tournament Approach to Reference-Free Benchmarking Large Language Models [0.29687381456164]
VARCO Arenaは、大規模言語モデルのための新しく、費用対効果が高く、堅牢なベンチマーク手法である。 VARCO Arenaは信頼性の高いLCMランキングを生成するだけでなく、質的評価のためのスケーラブルで適応可能なソリューションを提供する。
論文参考訳（メタデータ） (2024-11-02T15:23:28Z)
Curriculum Direct Preference Optimization for Diffusion and Consistency Models [110.08057135882356]
テキスト・ツー・イメージ・ジェネレーションのためのカリキュラム学習に基づくDPOの新しい拡張版を提案する。我々のアプローチであるCurriculum DPOは、3つのベンチマークにおける最先端の微調整手法と比較される。
論文参考訳（メタデータ） (2024-05-22T13:36:48Z)
A State-Space Perspective on Modelling and Inference for Online Skill Rating [1.9253333342733674]
逐次モンテカルロモデルと離散隠れマルコフモデルに基づく新しいアプローチを導入する。我々は、プレイヤーのスキルを時間変化として表現し、一致した結果が観測量として機能する状態空間モデル視点を提唱する。我々は,多数の選手や試合にスケールアップする上での課題について検討し,主な近似と縮小を強調した。
論文参考訳（メタデータ） (2023-08-04T16:03:50Z)
Ranking with Confidence for Large Scale Comparison Data [1.2183405753834562]
本研究では、比較ノイズを考慮した生成データモデルを用いて、ペア比較から高速で正確で情報的なランク付けを行う。実データでは、PD-Rankは、アクティブな学習方法よりも同じKendallアルゴリズムを達成するのに、計算時間が少ない。
論文参考訳（メタデータ） (2022-02-03T16:36:37Z)
LDNet: Unified Listener Dependent Modeling in MOS Prediction for Synthetic Speech [67.88748572167309]
本稿では,平均世論スコア(MOS)予測のための統合フレームワークLDNetを提案する。より安定した結果と効率的な計算を提供する2つの推論手法を提案する。
論文参考訳（メタデータ） (2021-10-18T08:52:31Z)
Adaptive Sampling for Heterogeneous Rank Aggregation from Noisy Pairwise Comparisons [85.5955376526419]
ランキングアグリゲーション問題では、各項目を比較する際に、様々な精度レベルが示される。本稿では,ノイズのあるペアワイズ比較によってアイテムのランクを推定する,除去に基づくアクティブサンプリング戦略を提案する。提案アルゴリズムは,商品の真のランキングを高い確率で返却できることを示す。
論文参考訳（メタデータ） (2021-10-08T13:51:55Z)
Learning-To-Ensemble by Contextual Rank Aggregation in E-Commerce [8.067201256886733]
本稿では,アンサンブルモデルを文脈的ランクアグリゲータに置き換えた新しいラーニング・トゥ・エンサンブル・フレームワークRAEGOを提案する。 RA-EGOは当社のオンラインシステムにデプロイされ、収益を大幅に改善しました。
論文参考訳（メタデータ） (2021-07-19T03:24:06Z)
Local policy search with Bayesian optimization [73.0364959221845]
強化学習は、環境との相互作用によって最適な政策を見つけることを目的としている。局所探索のための政策勾配は、しばしばランダムな摂動から得られる。目的関数の確率モデルとその勾配を用いたアルゴリズムを開発する。
論文参考訳（メタデータ） (2021-06-22T16:07:02Z)
One-Shot Neural Ensemble Architecture Search by Diversity-Guided Search Space Shrinking [97.60915598958968]
本稿では,この2つの課題に対処するワンショットニューラルアンサンブルアーキテクチャサーチ(NEAS)ソリューションを提案する。最初の課題として,探索空間の縮小を導くために,多様性に基づく新しい指標を導入する。第2の課題として,異なるモデル間の階層共有を効率向上のために学習する新たな探索次元を実現する。
論文参考訳（メタデータ） (2021-04-01T16:29:49Z)
Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文参考訳（メタデータ） (2020-06-15T10:08:39Z)
Active Sampling for Pairwise Comparisons via Approximate Message Passing and Information Gain Maximization [5.771869590520189]
本稿では、近似メッセージパッシングと期待情報ゲインに基づくアクティブサンプリングアルゴリズムASAPを提案する。既存の手法と比較して,ASAPは推定スコアの精度が最も高いことを示す。
論文参考訳（メタデータ） (2020-04-12T20:48:10Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。