論文の概要: Towards More Robust NLP System Evaluation: Handling Missing Scores in
Benchmarks
- arxiv url: http://arxiv.org/abs/2305.10284v1
- Date: Wed, 17 May 2023 15:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 15:09:32.859761
- Title: Towards More Robust NLP System Evaluation: Handling Missing Scores in
Benchmarks
- Title(参考訳): よりロバストなNLPシステム評価に向けて - ベンチマークにおけるミススコア処理
- Authors: Anas Himmi and Ekhine Irurozki and Nathan Noiry and Stephan Clemencon
and Pierre Colombo
- Abstract要約: 本稿は,NLP研究における既存の問題として,タスク中にシステムスコアが欠落している場合のベンチマークを定式化する。
既存のベンチマークよりも桁違いに大きい1億3100万以上のスコアを含む拡張ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 9.404931130084803
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The evaluation of natural language processing (NLP) systems is crucial for
advancing the field, but current benchmarking approaches often assume that all
systems have scores available for all tasks, which is not always practical. In
reality, several factors such as the cost of running baseline, private systems,
computational limitations, or incomplete data may prevent some systems from
being evaluated on entire tasks. This paper formalize an existing problem in
NLP research: benchmarking when some systems scores are missing on the task,
and proposes a novel approach to address it. Our method utilizes a compatible
partial ranking approach to impute missing data, which is then aggregated using
the Borda count method. It includes two refinements designed specifically for
scenarios where either task-level or instance-level scores are available. We
also introduce an extended benchmark, which contains over 131 million scores,
an order of magnitude larger than existing benchmarks. We validate our methods
and demonstrate their effectiveness in addressing the challenge of missing
system evaluation on an entire task. This work highlights the need for more
comprehensive benchmarking approaches that can handle real-world scenarios
where not all systems are evaluated on the entire task.
- Abstract(参考訳): 自然言語処理(NLP)システムの評価は分野の進展に不可欠であるが、現在のベンチマーク手法では、全てのシステムが全てのタスクに利用可能なスコアを持っていると仮定することが多い。
実際、ベースラインの実行コスト、プライベートシステム、計算制限、不完全なデータといったいくつかの要因は、タスク全体においてシステムの評価を妨げうる。
本稿では,NLP研究における既存の問題として,タスク中にシステムスコアが欠落している場合のベンチマークを定式化し,それに対応する新しいアプローチを提案する。
提案手法は互換性のある部分ランク付け手法を用いて欠落データをインプットし,ボルダカウント法を用いて集計する。
タスクレベルまたはインスタンスレベルのスコアが利用可能なシナリオ用に特別に設計された2つの改善が含まれている。
また、既存のベンチマークよりも桁違いに大きい1億3100万以上のスコアを含む拡張ベンチマークも導入しています。
提案手法を検証し,タスク全体におけるシステム評価の欠如という課題に対処し,その効果を実証する。
この作業は、タスク全体においてすべてのシステムが評価されるわけではない実世界のシナリオを処理できる、より包括的なベンチマークアプローチの必要性を強調します。
関連論文リスト
- DecompEval: Evaluating Generated Texts as Unsupervised Decomposed
Question Answering [95.89707479748161]
自然言語生成タスク(NLG)の既存の評価指標は、一般化能力と解釈可能性の課題に直面している。
本稿では,NLG評価を命令型質問応答タスクとして定式化するDecompEvalというメトリクスを提案する。
本稿では,文の質を測る問合せに,文の質を問う指導スタイルの質問を分解する。
PLMが生成した回答を証拠として再検討し、評価結果を得る。
論文 参考訳(メタデータ) (2023-07-13T16:16:51Z) - Revisiting Long-tailed Image Classification: Survey and Benchmarks with
New Evaluation Metrics [88.39382177059747]
メトリクスのコーパスは、長い尾の分布で学習するアルゴリズムの正確性、堅牢性、およびバウンダリを測定するために設計されている。
ベンチマークに基づいて,CIFAR10およびCIFAR100データセット上での既存手法の性能を再評価する。
論文 参考訳(メタデータ) (2023-02-03T02:40:54Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z) - Are We There Yet? A Decision Framework for Replacing Term Based
Retrieval with Dense Retrieval Systems [35.77217529138364]
いくつかの高密度検索(DR)モデルは、項ベース検索と競合する性能を示した。
DRはクエリとドキュメントを高密度なベクトル空間に投影し、(近似した)近接探索によって結果を検索する。
将来DRがユビキタスになるかどうかを予測することは不可能だが、この方法の1つは意思決定プロセスの繰り返し適用を通じて可能である。
論文 参考訳(メタデータ) (2022-06-26T23:16:05Z) - What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。
社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。
本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文 参考訳(メタデータ) (2022-02-08T11:44:20Z) - Importance of Textlines in Historical Document Classification [0.0]
本稿では, ブルノ工科大学 ICDAR 2021 歴史文書分類コンペティションシステムについて述べる。
解決されたタスクには、スクリプトとフォントの分類、文書の発端のローカライゼーション、日付付けが含まれる。
我々は,既存のページレイアウト解析エンジンを利用して,パッチレベルとラインレベルのアプローチを組み合わせた。
論文 参考訳(メタデータ) (2022-01-24T10:37:43Z) - WRENCH: A Comprehensive Benchmark for Weak Supervision [66.82046201714766]
ベンチマークは、分類とシーケンスタグ付けのための22の異なる実世界のデータセットで構成されている。
ベンチマークプラットフォームとしての有効性を示すために、100以上のメソッドの変種に対して広範な比較を行うためにベンチマークを使用します。
論文 参考訳(メタデータ) (2021-09-23T13:47:16Z) - Rethinking Counting and Localization in Crowds:A Purely Point-Based
Framework [59.578339075658995]
そこで本稿では,共同クラウドカウントと個別ローカライゼーションのための純粋にポイントベースのフレームワークを提案する。
我々は、P2PNet(Point to Point Network)と呼ばれる、このフレームワークの下で直感的なソリューションを設計する。
論文 参考訳(メタデータ) (2021-07-27T11:41:50Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - ESBM: An Entity Summarization BenchMark [20.293900908253544]
私たちはEntity Summarization BenchMark(ESBM)を作成し、既存のベンチマークの制限を克服し、ベンチマークの標準的なデシラタを満たします。
これらのシステムはすべて教師なしであるので、参照のための教師付き学習ベースシステムの実装と評価も行う。
論文 参考訳(メタデータ) (2020-03-08T07:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。