Fugu-MT 論文翻訳(概要): Towards More Robust NLP System Evaluation: Handling Missing Scores in Benchmarks

論文の概要: Towards More Robust NLP System Evaluation: Handling Missing Scores in Benchmarks

arxiv url: http://arxiv.org/abs/2305.10284v1
Date: Wed, 17 May 2023 15:20:31 GMT
ステータス: 翻訳完了
システム内更新日: 2023-05-18 15:09:32.859761
Title: Towards More Robust NLP System Evaluation: Handling Missing Scores in Benchmarks
Title（参考訳）: よりロバストなNLPシステム評価に向けて - ベンチマークにおけるミススコア処理
Authors: Anas Himmi and Ekhine Irurozki and Nathan Noiry and Stephan Clemencon and Pierre Colombo
Abstract要約: 本稿は,NLP研究における既存の問題として,タスク中にシステムスコアが欠落している場合のベンチマークを定式化する。既存のベンチマークよりも桁違いに大きい1億3100万以上のスコアを含む拡張ベンチマークを導入する。
参考スコア（独自算出の注目度）: 9.404931130084803
License: http://creativecommons.org/publicdomain/zero/1.0/
Abstract: The evaluation of natural language processing (NLP) systems is crucial for advancing the field, but current benchmarking approaches often assume that all systems have scores available for all tasks, which is not always practical. In reality, several factors such as the cost of running baseline, private systems, computational limitations, or incomplete data may prevent some systems from being evaluated on entire tasks. This paper formalize an existing problem in NLP research: benchmarking when some systems scores are missing on the task, and proposes a novel approach to address it. Our method utilizes a compatible partial ranking approach to impute missing data, which is then aggregated using the Borda count method. It includes two refinements designed specifically for scenarios where either task-level or instance-level scores are available. We also introduce an extended benchmark, which contains over 131 million scores, an order of magnitude larger than existing benchmarks. We validate our methods and demonstrate their effectiveness in addressing the challenge of missing system evaluation on an entire task. This work highlights the need for more comprehensive benchmarking approaches that can handle real-world scenarios where not all systems are evaluated on the entire task.
Abstract（参考訳）: 自然言語処理(NLP)システムの評価は分野の進展に不可欠であるが、現在のベンチマーク手法では、全てのシステムが全てのタスクに利用可能なスコアを持っていると仮定することが多い。実際、ベースラインの実行コスト、プライベートシステム、計算制限、不完全なデータといったいくつかの要因は、タスク全体においてシステムの評価を妨げうる。本稿では,NLP研究における既存の問題として,タスク中にシステムスコアが欠落している場合のベンチマークを定式化し,それに対応する新しいアプローチを提案する。提案手法は互換性のある部分ランク付け手法を用いて欠落データをインプットし,ボルダカウント法を用いて集計する。タスクレベルまたはインスタンスレベルのスコアが利用可能なシナリオ用に特別に設計された2つの改善が含まれている。また、既存のベンチマークよりも桁違いに大きい1億3100万以上のスコアを含む拡張ベンチマークも導入しています。提案手法を検証し,タスク全体におけるシステム評価の欠如という課題に対処し,その効果を実証する。この作業は、タスク全体においてすべてのシステムが評価されるわけではない実世界のシナリオを処理できる、より包括的なベンチマークアプローチの必要性を強調します。

関連論文リスト

StepMathAgent: A Step-Wise Agent for Evaluating Mathematical Processes through Tree-of-Error [60.82371607870152]
本稿では,StepMathAgentと呼ばれる,エラーのツリーに基づく新しい数学的プロセス評価エージェントを提案する。 StepMathAgentには、論理ステップセグメンテーション、ステップスコア、スコアアグリゲーション、エラーツリー生成の4つの内部コア操作と、4つの外部拡張モジュールが含まれている。 StepMathBenchの実験では、提案したStepMathAgentは最先端の手法よりも優れており、様々なシナリオに適用可能であることが示されている。
論文参考訳（メタデータ） (2025-03-13T07:02:53Z)
Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
SureMap: Simultaneous Mean Estimation for Single-Task and Multi-Task Disaggregated Evaluation [75.56845750400116]
分散評価(disaggregated evaluation) -- 異なるサブポピュレーション上での機械学習モデルのパフォーマンスの推定 - は、AIシステムのパフォーマンスとグループフェアネスを評価する上で、中核的なタスクである。ブラックボックスモデルの評価において,マルチタスクとシングルタスクの双方に対して高い推定精度を持つSureMapを開発した。提案手法は, ウェル・チョーゼンを用いた最大後部推定と, スタインの非バイアスリスク推定(SURE)によるクロスバリデーションフリーチューニングを併用する。
論文参考訳（メタデータ） (2024-11-14T17:53:35Z)
RAGEval: Scenario Specific RAG Evaluation Dataset Generation Framework [66.93260816493553]
本稿では,様々なシナリオにまたがってRAGシステムを評価するためのフレームワークであるRAGvalを紹介する。事実の正確性に焦点をあてて,完全性,幻覚,不適切性の3つの新しい指標を提案する。実験結果から, RAGEvalは, 生成した試料の明瞭度, 安全性, 適合性, 豊かさにおいて, ゼロショット法とワンショット法より優れていた。
論文参考訳（メタデータ） (2024-08-02T13:35:11Z)
On Speeding Up Language Model Evaluation [48.51924035873411]
LLM(Large Language Models)を用いたプロンプトベースの手法の開発には、多くの意思決定が必要である。この課題に対処するための新しい手法を提案する。典型的に必要とされるリソースの5～15%しか必要とせず,トップパフォーマンスの手法を識別できることが示される。
論文参考訳（メタデータ） (2024-07-08T17:48:42Z)
CoIR: A Comprehensive Benchmark for Code Information Retrieval Models [56.691926887209895]
textbfInformation textbfRetrieval Benchmark(textbfInformation textbfRetrieval Benchmark)は,コード検索機能の評価に特化して設計された,堅牢で包括的なベンチマークである。名前は、Textbftenを巧みにキュレートしたコードデータセットから成り、textbfs7の異なるドメインにまたがる、textbfeight特有の検索タスクにまたがる。我々は9つの広く使われている検索モデルを名前を用いて評価し、最先端のシステムであってもコード検索タスクの実行に重大な困難を見出した。
論文参考訳（メタデータ） (2024-07-03T07:58:20Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
Benchmarking Uncertainty Quantification Methods for Large Language Models with LM-Polygraph [83.90988015005934]
不確実性定量化は機械学習アプリケーションにおいて重要な要素である。最新のUQベースラインの集合を実装した新しいベンチマークを導入する。我々は、11タスクにわたるUQと正規化技術に関する大規模な実証的研究を行い、最も効果的なアプローチを特定した。
論文参考訳（メタデータ） (2024-06-21T20:06:31Z)
Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文参考訳（メタデータ） (2024-03-21T10:31:11Z)
Vote'n'Rank: Revision of Benchmarking with Social Choice Theory [7.224599819499157]
本稿では,社会的選択論の原理に基づき,マルチタスクベンチマークにおけるシステムランキングの枠組みであるVote'n'Rankを提案する。いくつかのMLサブフィールドにおいて,ベンチマークに関する新たな洞察を引き出すために,我々の手法を効率的に活用できることを実証する。
論文参考訳（メタデータ） (2022-10-11T20:19:11Z)
Are We There Yet? A Decision Framework for Replacing Term Based Retrieval with Dense Retrieval Systems [35.77217529138364]
いくつかの高密度検索(DR)モデルは、項ベース検索と競合する性能を示した。 DRはクエリとドキュメントを高密度なベクトル空間に投影し、(近似した)近接探索によって結果を検索する。将来DRがユビキタスになるかどうかを予測することは不可能だが、この方法の1つは意思決定プロセスの繰り返し適用を通じて可能である。
論文参考訳（メタデータ） (2022-06-26T23:16:05Z)
What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文参考訳（メタデータ） (2022-02-08T11:44:20Z)
The Benchmark Lottery [114.43978017484893]
ベンチマーク宝くじ」は、機械学習ベンチマークプロセスの全体的な脆弱さを記述している。アルゴリズムの相対的性能は、異なるベンチマークタスクを選択するだけで大幅に変化する可能性がある。
論文参考訳（メタデータ） (2021-07-14T21:08:30Z)
ESBM: An Entity Summarization BenchMark [20.293900908253544]
私たちはEntity Summarization BenchMark(ESBM)を作成し、既存のベンチマークの制限を克服し、ベンチマークの標準的なデシラタを満たします。これらのシステムはすべて教師なしであるので、参照のための教師付き学習ベースシステムの実装と評価も行う。
論文参考訳（メタデータ） (2020-03-08T07:12:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。