論文の概要: What are the best systems? New perspectives on NLP Benchmarking
- arxiv url: http://arxiv.org/abs/2202.03799v1
- Date: Tue, 8 Feb 2022 11:44:20 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-09 22:22:09.301314
- Title: What are the best systems? New perspectives on NLP Benchmarking
- Title(参考訳): 最良のシステムは何か?
NLPベンチマークの新展開
- Authors: Pierre Colombo and Nathan Noiry and Ekhine Irurozki and Stephan
Clemencon
- Abstract要約: そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。
社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。
本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
- 参考スコア(独自算出の注目度): 10.27421161397197
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In Machine Learning, a benchmark refers to an ensemble of datasets associated
with one or multiple metrics together with a way to aggregate different systems
performances. They are instrumental in (i) assessing the progress of new
methods along different axes and (ii) selecting the best systems for practical
use. This is particularly the case for NLP with the development of large
pre-trained models (e.g. GPT, BERT) that are expected to generalize well on a
variety of tasks. While the community mainly focused on developing new datasets
and metrics, there has been little interest in the aggregation procedure, which
is often reduced to a simple average over various performance measures.
However, this procedure can be problematic when the metrics are on a different
scale, which may lead to spurious conclusions. This paper proposes a new
procedure to rank systems based on their performance across different tasks.
Motivated by the social choice theory, the final system ordering is obtained
through aggregating the rankings induced by each task and is theoretically
grounded. We conduct extensive numerical experiments (on over 270k scores) to
assess the soundness of our approach both on synthetic and real scores (e.g.
GLUE, EXTREM, SEVAL, TAC, FLICKR). In particular, we show that our method
yields different conclusions on state-of-the-art systems than the
mean-aggregation procedure while being both more reliable and robust.
- Abstract(参考訳): 機械学習において、ベンチマークとは、1つまたは複数のメトリクスに関連するデータセットの集合と、異なるシステムパフォーマンスを集約する方法である。
彼らは楽器です
(i)異なる軸に沿っての新しい方法の進展を評価すること、及び
(ii)実用上最良のシステムを選択すること。
特にNLPでは、様々なタスクでうまく一般化されるであろう大規模な事前学習モデル(GPT、BERTなど)が開発されている。
コミュニティは、主に新しいデータセットとメトリクスの開発に注力しているが、アグリゲーション手順にはほとんど関心がなく、様々なパフォーマンス指標よりも単純な平均に削減されることが多い。
しかし、メトリクスが異なるスケールにある場合、この手順は問題になりうるため、急激な結論につながる可能性がある。
本稿では,異なるタスクにまたがるシステムの性能をランク付けする新しい手法を提案する。
社会的選択理論に動機づけられ、各タスクによって引き起こされるランキングを集約することで最終的なシステム順序が得られ、理論的に接地される。
合成スコアと実スコア(glue, extrem, seval, tac, flickrなど)の両方で、我々のアプローチの健全性を評価するために、270k以上のスコアで広範な数値実験を行いました。
特に,本手法は,信頼性とロバストさを両立させながら,平均集約法と異なる結果が得られることを示す。
関連論文リスト
- MISS: Multiclass Interpretable Scoring Systems [13.902264070785986]
MISS(Multiclass Interpretable Scoring Systems)構築のための機械学習手法を提案する。
MISSは、シングルクラス、スパース、ユーザフレンドリーなスコアリングシステムのための、完全なデータ駆動の方法論である。
結果から,本手法は他の機械学習モデルと性能指標の分類において競合し,高い校正率のクラス確率が得られたことが示唆された。
論文 参考訳(メタデータ) (2024-01-10T10:57:12Z) - Towards More Robust NLP System Evaluation: Handling Missing Scores in
Benchmarks [9.404931130084803]
本稿は,NLP研究における既存の問題として,タスク中にシステムスコアが欠落している場合のベンチマークを定式化する。
既存のベンチマークよりも桁違いに大きい1億3100万以上のスコアを含む拡張ベンチマークを導入する。
論文 参考訳(メタデータ) (2023-05-17T15:20:31Z) - Better Understanding Differences in Attribution Methods via Systematic Evaluations [57.35035463793008]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
これらの評価手法を用いて、広範囲のモデルにおいて広く用いられている属性手法の長所と短所について検討する。
論文 参考訳(メタデータ) (2023-03-21T14:24:58Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - Towards Better Understanding Attribution Methods [77.1487219861185]
モデル決定に最も影響を及ぼす画像領域を特定するために、ポストホック属性法が提案されている。
本稿では,これらの手法の忠実度をより確実に評価するための3つの新しい評価手法を提案する。
また,いくつかの属性法の性能を著しく向上する処理後平滑化ステップを提案する。
論文 参考訳(メタデータ) (2022-05-20T20:50:17Z) - An Extensible Benchmark Suite for Learning to Simulate Physical Systems [60.249111272844374]
我々は、統一されたベンチマークと評価プロトコルへの一歩を踏み出すために、一連のベンチマーク問題を導入する。
本稿では,4つの物理系と,広く使用されている古典的時間ベースおよび代表的なデータ駆動手法のコレクションを提案する。
論文 参考訳(メタデータ) (2021-08-09T17:39:09Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Towards Model-Agnostic Post-Hoc Adjustment for Balancing Ranking
Fairness and Algorithm Utility [54.179859639868646]
Bipartiteランキングは、ラベル付きデータから正の個人よりも上位の個人をランク付けするスコアリング機能を学ぶことを目的としている。
学習したスコアリング機能が、異なる保護グループ間で体系的な格差を引き起こすのではないかという懸念が高まっている。
本稿では、二部構成のランキングシナリオにおいて、それらのバランスをとるためのモデル後処理フレームワークを提案する。
論文 参考訳(メタデータ) (2020-06-15T10:08:39Z) - PONE: A Novel Automatic Evaluation Metric for Open-Domain Generative
Dialogue Systems [48.99561874529323]
オープンドメイン生成対話システムの評価には3つの方法がある。
体系的な比較が欠如しているため、どの指標がより効果的であるかは明らかでない。
本稿では,人間の判断との相関性を大幅に改善できる,新しい,実現可能な学習基準を提案する。
論文 参考訳(メタデータ) (2020-04-06T04:36:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。