論文の概要: What Will it Take to Fix Benchmarking in Natural Language Understanding?
- arxiv url: http://arxiv.org/abs/2104.02145v1
- Date: Mon, 5 Apr 2021 20:36:11 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-07 14:13:52.373949
- Title: What Will it Take to Fix Benchmarking in Natural Language Understanding?
- Title(参考訳): 自然言語理解におけるベンチマークの修正には何が必要か?
- Authors: Samuel R. Bowman and George E. Dahl
- Abstract要約: 我々は、NLUベンチマークが満たすべきと議論する4つの基準を定めている。
健全な評価エコシステムの復元には、ベンチマークデータセットの設計に大きな進歩が必要だ。
- 参考スコア(独自算出の注目度): 30.888416756627155
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Evaluation for many natural language understanding (NLU) tasks is broken:
Unreliable and biased systems score so highly on standard benchmarks that there
is little room for researchers who develop better systems to demonstrate their
improvements. The recent trend to abandon IID benchmarks in favor of
adversarially-constructed, out-of-distribution test sets ensures that current
models will perform poorly, but ultimately only obscures the abilities that we
want our benchmarks to measure. In this position paper, we lay out four
criteria that we argue NLU benchmarks should meet. We argue most current
benchmarks fail at these criteria, and that adversarial data collection does
not meaningfully address the causes of these failures. Instead, restoring a
healthy evaluation ecosystem will require significant progress in the design of
benchmark datasets, the reliability with which they are annotated, their size,
and the ways they handle social bias.
- Abstract(参考訳): 多くの自然言語理解(NLU)タスクの評価は壊れている: 信頼できない、偏見のないシステムは、標準ベンチマークで非常に高く評価されるため、改善を示すためのより良いシステムを開発する研究者の余地はほとんどない。
IIDベンチマークを捨てて、逆向きに構成されたアウト・オブ・ディストリビューションテストセットを採用するという最近のトレンドは、現在のモデルの性能が悪くなることを保証しています。
本稿では,NLUベンチマークが満たすべき4つの基準について述べる。
我々は、現在のベンチマークのほとんどはこれらの基準で失敗し、敵対的なデータ収集はこれらの障害の原因に意味をなさないと論じている。
代わりに、健全な評価エコシステムを再構築するには、ベンチマークデータセットの設計、注釈が付された信頼性、サイズ、社会バイアスに対処する方法の大幅な進歩が必要です。
関連論文リスト
- Private Benchmarking to Prevent Contamination and Improve Comparative
Evaluation of LLMs [14.064230826683085]
テストデータセットをプライベートに保持し、モデルにテストデータを公開せずにモデルを評価するソリューションであるPrivate Benchmarkingを提案する。
モデル所有者やデータセット所有者の信頼度に依存する)様々なシナリオを説明し、プライベートベンチマークによるデータの汚染を避けるためのソリューションを提示します。
論文 参考訳(メタデータ) (2024-03-01T09:28:38Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - Don't Make Your LLM an Evaluation Benchmark Cheater [142.24553056600627]
大規模言語モデル(LLM)は人工知能のフロンティアを大幅に進歩させ、モデルキャパシティを著しく向上させた。
モデル性能を評価するために, LLMの能力レベルを測定するための評価ベンチマークを構築するのが典型的な方法である。
評価ベンチマークを用いて不適切なリスクと影響について検討し,評価結果を誤って解釈する。
論文 参考訳(メタデータ) (2023-11-03T14:59:54Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z) - Benchmarks for Automated Commonsense Reasoning: A Survey [0.0]
AIシステムの常識知識と常識推論能力をテストするために、100以上のベンチマークが開発されている。
本稿では,AIコモンセンスベンチマークの開発と利用について検討する。
論文 参考訳(メタデータ) (2023-02-09T16:34:30Z) - Towards Clear Expectations for Uncertainty Estimation [64.20262246029286]
不確実性定量化(UQ)は、信頼できる機械学習(ML)を実現するために不可欠である
ほとんどのUQ手法は、異なる不整合評価プロトコルに悩まされている。
この意見書は、これらの要件を5つの下流タスクを通して指定することで、新たな視点を提供する。
論文 参考訳(メタデータ) (2022-07-27T07:50:57Z) - Bridging the Gap between Reality and Ideality of Entity Matching: A
Revisiting and Benchmark Re-Construction [38.6894028899346]
我々は,新しいEMコーパスを構築し,従来のベンチマーク構築プロセスで暗黙的に重要な仮定に挑戦するためにEMベンチマークを再構築する。
その結果, 前回のベンチマーク構築プロセスにおける仮定は, オープン環境と一致しないことがわかった。
構築されたベンチマークとコードは公開されています。
論文 参考訳(メタデータ) (2022-05-12T05:50:30Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Shades of BLEU, Flavours of Success: The Case of MultiWOZ [0.0]
本研究では、このデータセットで使用される3つのコーパスベースのメトリクスについて、データ前処理とレポートの不整合を同定する。
我々は,MultiWOZベンチマークのいくつかの問題として,不満足な事前処理,不十分あるいは不明確な評価指標,厳密なデータベースなどを挙げている。
将来のシステムの比較を容易にするために,スタンドアローンで標準化された評価スクリプトをリリースする。
論文 参考訳(メタデータ) (2021-06-10T07:33:53Z) - Exploring and Analyzing Machine Commonsense Benchmarks [0.13999481573773073]
我々は、これらのアプローチのメタデータを調整するための共通の語彙の欠如は、システムの欠陥を理解するための努力で研究者を制限します。
ベンチマークメタデータを形式化する一般的な語彙であるMCS Benchmark Ontologyについて説明します。
論文 参考訳(メタデータ) (2020-12-21T19:01:55Z) - Reliable Evaluations for Natural Language Inference based on a Unified
Cross-dataset Benchmark [54.782397511033345]
クラウドソースの自然言語推論(NLI)データセットは、アノテーションアーティファクトのような重大なバイアスに悩まされる可能性がある。
14のNLIデータセットと9つの広く使用されているニューラルネットワークベースのNLIモデルを再評価した、新しいクロスデータセットベンチマークを提案する。
提案した評価手法と実験ベースラインは,将来信頼性の高いNLI研究を刺激する基盤となる可能性がある。
論文 参考訳(メタデータ) (2020-10-15T11:50:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。