論文の概要: Vote'n'Rank: Revision of Benchmarking with Social Choice Theory
- arxiv url: http://arxiv.org/abs/2210.05769v2
- Date: Thu, 13 Oct 2022 09:12:16 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 11:27:28.571408
- Title: Vote'n'Rank: Revision of Benchmarking with Social Choice Theory
- Title(参考訳): Vote'n'Rank: 社会的選択理論によるベンチマークの改訂
- Authors: Mark Rofin, Vladislav Mikhailov, Mikhail Florinskiy, Andrey
Kravchenko, Elena Tutubalina, Tatiana Shavrina, Daniel Karabekyan, Ekaterina
Artemova
- Abstract要約: 本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
- 参考スコア(独自算出の注目度): 7.224599819499157
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The development of state-of-the-art systems in different applied areas of
machine learning (ML) is driven by benchmarks, which have shaped the paradigm
of evaluating generalisation capabilities from multiple perspectives. Although
the paradigm is shifting towards more fine-grained evaluation across diverse
tasks, the delicate question of how to aggregate the performances has received
particular interest in the community. In general, benchmarks follow the
unspoken utilitarian principles, where the systems are ranked based on their
mean average score over task-specific metrics. Such aggregation procedure has
been viewed as a sub-optimal evaluation protocol, which may have created the
illusion of progress. This paper proposes Vote'n'Rank, a framework for ranking
systems in multi-task benchmarks under the principles of the social choice
theory. We demonstrate that our approach can be efficiently utilised to draw
new insights on benchmarking in several ML sub-fields and identify the
best-performing systems in research and development case studies. The
Vote'n'Rank's procedures are more robust than the mean average while being able
to handle missing performance scores and determine conditions under which the
system becomes the winner.
- Abstract(参考訳): 機械学習(ML)のさまざまな応用分野における最先端システムの開発は、複数の視点から一般化能力を評価するパラダイムを形成するベンチマークによって進められている。
パラダイムは様々なタスクにわたるよりきめ細かい評価へとシフトしているが、パフォーマンスを集約する方法に関する繊細な質問はコミュニティに特に関心を集めている。
一般に、ベンチマークは、タスク固有のメトリクスの平均スコアに基づいて、システムがランク付けされる、見知らぬ実用原則に従っている。
このようなアグリゲーション手順は準最適評価プロトコルと見なされ、進歩の錯覚を生み出した可能性がある。
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
本研究では,いくつかのMLサブフィールドにおけるベンチマークの新たな洞察を効果的に活用し,研究・開発事例研究において最も優れたシステムを特定することができることを示す。
Vote'n'Rankの手順は平均よりも堅牢であり、失ったパフォーマンススコアを処理し、システムが勝者となる条件を決定することができる。
関連論文リスト
- MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - Full Stage Learning to Rank: A Unified Framework for Multi-Stage Systems [40.199257203898846]
我々は,多段階システム,すなわちGPRP(Generalized Probability Ranking Principle)のための改良されたランキング原理を提案する。
GPRPは、システムパイプラインの各ステージにおける選択バイアスと、ユーザの基本的な関心の両方を強調している。
我々の中核的な考え方は、まず次の段階における選択バイアスを推定し、次に下流モジュールの選択バイアスに最もよく適合するランキングモデルを学ぶことである。
論文 参考訳(メタデータ) (2024-05-08T06:35:04Z) - When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [9.751405901938895]
既存のリーダーボードでは,LLMの相対的な性能は細部まで非常に敏感であることが示されている。
一般的なマルチチョイス質問ベンチマーク(MMLUなど)では、選択の順序や解答の選択方法の変更など、ベンチマークに対する小さな摂動が最大8位までランクが変更されることが示されている。
論文 参考訳(メタデータ) (2024-02-01T19:12:25Z) - Hierarchical Evaluation Framework: Best Practices for Human Evaluation [17.91641890651225]
NLPハマーにおける広く受け入れられている評価基準の欠如は、異なるシステム間での公正な比較と、普遍的な評価基準の確立である。
我々は,NLPシステムの性能をより包括的に表現するための,独自の階層的評価フレームワークを開発した。
今後の課題として,NLPシステムの評価を行う上で,提案するフレームワークの時間節約効果について検討する。
論文 参考訳(メタデータ) (2023-10-03T09:46:02Z) - Bipartite Ranking Fairness through a Model Agnostic Ordering Adjustment [54.179859639868646]
本稿では,二部類ランキングにおける公平性を実現するためのモデルに依存しない後処理フレームワークxOrderを提案する。
xOrderは、教師なしおよび教師なしの公正度メトリックを含む、さまざまな分類モデルとランキングフェアネスメトリクスと互換性がある。
提案アルゴリズムを,4つのベンチマークデータセットと2つの実世界の患者電子健康記録リポジトリ上で評価した。
論文 参考訳(メタデータ) (2023-07-27T07:42:44Z) - KPEval: Towards Fine-Grained Semantic-Based Keyphrase Evaluation [69.57018875757622]
KPEvalは、参照合意、忠実性、多様性、有用性という4つの重要な側面からなる総合的な評価フレームワークである。
KPEvalを用いて、23のキーフレーズシステムを再評価し、確立されたモデル比較結果に盲点があることを発見した。
論文 参考訳(メタデータ) (2023-03-27T17:45:38Z) - What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。
社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。
本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文 参考訳(メタデータ) (2022-02-08T11:44:20Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。