論文の概要: Towards More Robust NLP System Evaluation: Handling Missing Scores in
Benchmarks
- arxiv url: http://arxiv.org/abs/2305.10284v1
- Date: Wed, 17 May 2023 15:20:31 GMT
- ステータス: 処理完了
- システム内更新日: 2023-05-18 15:09:32.859761
- Title: Towards More Robust NLP System Evaluation: Handling Missing Scores in
Benchmarks
- Title(参考訳): よりロバストなNLPシステム評価に向けて - ベンチマークにおけるミススコア処理
- Authors: Anas Himmi and Ekhine Irurozki and Nathan Noiry and Stephan Clemencon
and Pierre Colombo
- Abstract要約: 本稿は,NLP研究における既存の問題として,タスク中にシステムスコアが欠落している場合のベンチマークを定式化する。
既存のベンチマークよりも桁違いに大きい1億3100万以上のスコアを含む拡張ベンチマークを導入する。
- 参考スコア(独自算出の注目度): 9.404931130084803
- License: http://creativecommons.org/publicdomain/zero/1.0/
- Abstract: The evaluation of natural language processing (NLP) systems is crucial for
advancing the field, but current benchmarking approaches often assume that all
systems have scores available for all tasks, which is not always practical. In
reality, several factors such as the cost of running baseline, private systems,
computational limitations, or incomplete data may prevent some systems from
being evaluated on entire tasks. This paper formalize an existing problem in
NLP research: benchmarking when some systems scores are missing on the task,
and proposes a novel approach to address it. Our method utilizes a compatible
partial ranking approach to impute missing data, which is then aggregated using
the Borda count method. It includes two refinements designed specifically for
scenarios where either task-level or instance-level scores are available. We
also introduce an extended benchmark, which contains over 131 million scores,
an order of magnitude larger than existing benchmarks. We validate our methods
and demonstrate their effectiveness in addressing the challenge of missing
system evaluation on an entire task. This work highlights the need for more
comprehensive benchmarking approaches that can handle real-world scenarios
where not all systems are evaluated on the entire task.
- Abstract(参考訳): 自然言語処理(NLP)システムの評価は分野の進展に不可欠であるが、現在のベンチマーク手法では、全てのシステムが全てのタスクに利用可能なスコアを持っていると仮定することが多い。
実際、ベースラインの実行コスト、プライベートシステム、計算制限、不完全なデータといったいくつかの要因は、タスク全体においてシステムの評価を妨げうる。
本稿では,NLP研究における既存の問題として,タスク中にシステムスコアが欠落している場合のベンチマークを定式化し,それに対応する新しいアプローチを提案する。
提案手法は互換性のある部分ランク付け手法を用いて欠落データをインプットし,ボルダカウント法を用いて集計する。
タスクレベルまたはインスタンスレベルのスコアが利用可能なシナリオ用に特別に設計された2つの改善が含まれている。
また、既存のベンチマークよりも桁違いに大きい1億3100万以上のスコアを含む拡張ベンチマークも導入しています。
提案手法を検証し,タスク全体におけるシステム評価の欠如という課題に対処し,その効果を実証する。
この作業は、タスク全体においてすべてのシステムが評価されるわけではない実世界のシナリオを処理できる、より包括的なベンチマークアプローチの必要性を強調します。
関連論文リスト
- SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。
ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。
提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文 参考訳(メタデータ) (2024-11-14T17:53:35Z) - On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。
この課題に対処するための新しい手法を提案する。
典型的に必要とされるリソースの5~15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文 参考訳(メタデータ) (2024-07-08T17:48:42Z) - CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。
名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。
我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文 参考訳(メタデータ) (2024-07-03T07:58:20Z) - DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。
いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文 参考訳(メタデータ) (2022-10-11T20:19:11Z) - Are We There Yet? A Decision Framework for Replacing Term Based
Retrieval with Dense Retrieval Systems [35.77217529138364]
いくつかの高密度検索(DR)モデルは、項ベース検索と競合する性能を示した。
DRはクエリとドキュメントを高密度なベクトル空間に投影し、(近似した)近接探索によって結果を検索する。
将来DRがユビキタスになるかどうかを予測することは不可能だが、この方法の1つは意思決定プロセスの繰り返し適用を通じて可能である。
論文 参考訳(メタデータ) (2022-06-26T23:16:05Z) - What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。
社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。
本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文 参考訳(メタデータ) (2022-02-08T11:44:20Z) - The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。
アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文 参考訳(メタデータ) (2021-07-14T21:08:30Z) - ESBM: An Entity Summarization BenchMark [20.293900908253544]
私たちはEntity Summarization BenchMark(ESBM)を作成し、既存のベンチマークの制限を克服し、ベンチマークの標準的なデシラタを満たします。
これらのシステムはすべて教師なしであるので、参照のための教師付き学習ベースシステムの実装と評価も行う。
論文 参考訳(メタデータ) (2020-03-08T07:12:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。