論文の概要: A Survey of Parameters Associated with the Quality of Benchmarks in NLP
- arxiv url: http://arxiv.org/abs/2210.07566v1
- Date: Fri, 14 Oct 2022 06:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:05:23.327651
- Title: A Survey of Parameters Associated with the Quality of Benchmarks in NLP
- Title(参考訳): NLPにおけるベンチマーク品質に関連するパラメータの検討
- Authors: Swaroop Mishra, Anjana Arunkumar, Chris Bryan and Chitta Baral
- Abstract要約: 最近の研究では、モデルがいくつかの人気のあるベンチマークに対して、望ましいタスクを本当に学習することなく、刺激的なバイアスに過度に適合していることが示されている。
これらの問題に対する潜在的な解決策 - 量的定量化品質 - は、まだ未検討のままである。
ベンチマークのバイアスにつながる様々な相互作用を表現できる特定の言語特性を特定することで、メトリックへの第一歩を踏み出します。
- 参考スコア(独自算出の注目度): 24.6240575061124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several benchmarks have been built with heavy investment in resources to
track our progress in NLP. Thousands of papers published in response to those
benchmarks have competed to top leaderboards, with models often surpassing
human performance. However, recent studies have shown that models triumph over
several popular benchmarks just by overfitting on spurious biases, without
truly learning the desired task. Despite this finding, benchmarking, while
trying to tackle bias, still relies on workarounds, which do not fully utilize
the resources invested in benchmark creation, due to the discarding of low
quality data, and cover limited sets of bias. A potential solution to these
issues -- a metric quantifying quality -- remains underexplored. Inspired by
successful quality indices in several domains such as power, food, and water,
we take the first step towards a metric by identifying certain language
properties that can represent various possible interactions leading to biases
in a benchmark. We look for bias related parameters which can potentially help
pave our way towards the metric. We survey existing works and identify
parameters capturing various properties of bias, their origins, types and
impact on performance, generalization, and robustness. Our analysis spans over
datasets and a hierarchy of tasks ranging from NLI to Summarization, ensuring
that our parameters are generic and are not overfitted towards a specific task
or dataset. We also develop certain parameters in this process.
- Abstract(参考訳): NLPの進捗を追跡するために、リソースに多大な投資をしながら、いくつかのベンチマークが構築されている。
これらのベンチマークに反応して発行された何千もの論文は、トップのリーダーボードと競合している。
しかし、最近の研究では、モデルが望ましいタスクを真に学習することなく、スプリアスバイアスを過剰に満たすだけで、いくつかの人気のあるベンチマークに勝っていることが示されている。
この発見にもかかわらず、ベンチマークはバイアスに取り組みつつも、低い品質のデータを捨て、限られたバイアスセットをカバーするため、ベンチマーク作成に費やしたリソースを十分に活用しない回避策に依存している。
これらの問題に対する潜在的な解決策 -- メトリック定量化品質 -- は未検討のままである。
パワー、食品、水などのいくつかの領域における品質指標の成功にインスパイアされた私たちは、ベンチマークのバイアスにつながる様々な相互作用を表現できる特定の言語特性を特定することで、メトリックへの第一歩を踏み出します。
私たちは、メトリクスへの道筋を舗装するのに役立つバイアス関連パラメータを探します。
既存の作品を調査し,バイアス,その起源,タイプ,パフォーマンスへの影響,一般化,ロバスト性といった様々な特性を捉えたパラメータを同定する。
我々の分析はデータセットと NLI から Summarization までのタスク階層にまたがっており、パラメータが汎用的であり、特定のタスクやデータセットに対して過度に適合しないことを保証する。
このプロセスでは、特定のパラメータも開発します。
関連論文リスト
- Have Seen Me Before? Automating Dataset Updates Towards Reliable and
Timely Evaluation [59.91488389687633]
大きな言語モデル(LLM)は、ますます深刻な評価課題に直面しています。
本稿では,信頼性とタイムリーな評価のために,データセットの更新を自動化することを提案する。
論文 参考訳(メタデータ) (2024-02-19T07:15:59Z) - SuperTweetEval: A Challenging, Unified and Heterogeneous Benchmark for
Social Media NLP Research [33.698581876383074]
ソーシャルメディアのSuperTweetEvalにおいて,NLP評価のための統一ベンチマークを導入する。
SuperTweetEvalで幅広いモデルのパフォーマンスをベンチマークした結果、最近の言語モデリングの進歩にもかかわらず、ソーシャルメディアは依然として困難な状態にあることが示唆された。
論文 参考訳(メタデータ) (2023-10-23T09:48:25Z) - Towards Multiple References Era -- Addressing Data Leakage and Limited
Reference Diversity in NLG Evaluation [55.92852268168816]
BLEUやchrFのようなN-gramマッチングに基づく評価指標は、自然言語生成(NLG)タスクで広く利用されている。
近年の研究では、これらのマッチングベースの指標と人間の評価との間には弱い相関関係が示されている。
本稿では,これらの指標と人的評価の整合性を高めるために,テキストマルチプル参照を利用することを提案する。
論文 参考訳(メタデータ) (2023-08-06T14:49:26Z) - Benchmark tasks for Quality-Diversity applied to Uncertain domains [1.5469452301122175]
実装が容易で軽量な8つのタスクを3つのカテゴリに分けて紹介します。
我々は、UQDベンチマークタスクを簡単に定義するための重要な不確実性を特定する。
私たちのタスクはすべて、Redundant Arm上に構築されています。
論文 参考訳(メタデータ) (2023-04-24T21:23:26Z) - Perona: Robust Infrastructure Fingerprinting for Resource-Efficient Big
Data Analytics [0.06524460254566904]
ビッグデータ分析で使用するために,堅牢なインフラストラクチャフィンガープリントのための新しいアプローチであるPeronaを紹介します。
Peronaは、ベンチマークツールの共通セットと設定をターゲットリソースに採用しているため、ベンチマークメトリクスは直接比較され、ランキングが有効になる。
われわれのアプローチは、我々の実験から収集したデータと、リソース構成最適化に関する関連する作業の両方に基づいて評価する。
論文 参考訳(メタデータ) (2022-11-15T15:48:09Z) - Towards QD-suite: developing a set of benchmarks for Quality-Diversity
algorithms [0.0]
既存のベンチマークは標準化されておらず、現在、品質多様性(QD)に匹敵するMNISTはない。
我々は、QD手法が直面する課題の特定と、目標とする、挑戦的でスケーラブルなベンチマークの開発が重要なステップであると主張している。
論文 参考訳(メタデータ) (2022-05-06T13:33:50Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - QAFactEval: Improved QA-Based Factual Consistency Evaluation for
Summarization [116.56171113972944]
QAベースのメトリクスのコンポーネントを慎重に選択することは、パフォーマンスにとって重要であることを示す。
提案手法は,最良性能のエンテーメントに基づく測定値を改善し,最先端の性能を実現する。
論文 参考訳(メタデータ) (2021-12-16T00:38:35Z) - A critical analysis of metrics used for measuring progress in artificial
intelligence [9.387811897655016]
我々は、3867の機械学習モデルのパフォーマンス結果をカバーするデータに基づいて、現在のパフォーマンス指標の状況を分析する。
結果から、現在使用されているメトリクスの大部分は、モデルの性能の不十分なリフレクションをもたらす可能性のある特性を持っていることが示唆される。
報告された指標の曖昧さを記述し、モデル性能の解釈と比較が困難になる可能性がある。
論文 参考訳(メタデータ) (2020-08-06T11:14:37Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。