論文の概要: A Survey of Parameters Associated with the Quality of Benchmarks in NLP
- arxiv url: http://arxiv.org/abs/2210.07566v1
- Date: Fri, 14 Oct 2022 06:44:14 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-17 15:05:23.327651
- Title: A Survey of Parameters Associated with the Quality of Benchmarks in NLP
- Title(参考訳): NLPにおけるベンチマーク品質に関連するパラメータの検討
- Authors: Swaroop Mishra, Anjana Arunkumar, Chris Bryan and Chitta Baral
- Abstract要約: 最近の研究では、モデルがいくつかの人気のあるベンチマークに対して、望ましいタスクを本当に学習することなく、刺激的なバイアスに過度に適合していることが示されている。
これらの問題に対する潜在的な解決策 - 量的定量化品質 - は、まだ未検討のままである。
ベンチマークのバイアスにつながる様々な相互作用を表現できる特定の言語特性を特定することで、メトリックへの第一歩を踏み出します。
- 参考スコア(独自算出の注目度): 24.6240575061124
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Several benchmarks have been built with heavy investment in resources to
track our progress in NLP. Thousands of papers published in response to those
benchmarks have competed to top leaderboards, with models often surpassing
human performance. However, recent studies have shown that models triumph over
several popular benchmarks just by overfitting on spurious biases, without
truly learning the desired task. Despite this finding, benchmarking, while
trying to tackle bias, still relies on workarounds, which do not fully utilize
the resources invested in benchmark creation, due to the discarding of low
quality data, and cover limited sets of bias. A potential solution to these
issues -- a metric quantifying quality -- remains underexplored. Inspired by
successful quality indices in several domains such as power, food, and water,
we take the first step towards a metric by identifying certain language
properties that can represent various possible interactions leading to biases
in a benchmark. We look for bias related parameters which can potentially help
pave our way towards the metric. We survey existing works and identify
parameters capturing various properties of bias, their origins, types and
impact on performance, generalization, and robustness. Our analysis spans over
datasets and a hierarchy of tasks ranging from NLI to Summarization, ensuring
that our parameters are generic and are not overfitted towards a specific task
or dataset. We also develop certain parameters in this process.
- Abstract(参考訳): NLPの進捗を追跡するために、リソースに多大な投資をしながら、いくつかのベンチマークが構築されている。
これらのベンチマークに反応して発行された何千もの論文は、トップのリーダーボードと競合している。
しかし、最近の研究では、モデルが望ましいタスクを真に学習することなく、スプリアスバイアスを過剰に満たすだけで、いくつかの人気のあるベンチマークに勝っていることが示されている。
この発見にもかかわらず、ベンチマークはバイアスに取り組みつつも、低い品質のデータを捨て、限られたバイアスセットをカバーするため、ベンチマーク作成に費やしたリソースを十分に活用しない回避策に依存している。
これらの問題に対する潜在的な解決策 -- メトリック定量化品質 -- は未検討のままである。
パワー、食品、水などのいくつかの領域における品質指標の成功にインスパイアされた私たちは、ベンチマークのバイアスにつながる様々な相互作用を表現できる特定の言語特性を特定することで、メトリックへの第一歩を踏み出します。
私たちは、メトリクスへの道筋を舗装するのに役立つバイアス関連パラメータを探します。
既存の作品を調査し,バイアス,その起源,タイプ,パフォーマンスへの影響,一般化,ロバスト性といった様々な特性を捉えたパラメータを同定する。
我々の分析はデータセットと NLI から Summarization までのタスク階層にまたがっており、パラメータが汎用的であり、特定のタスクやデータセットに対して過度に適合しないことを保証する。
このプロセスでは、特定のパラメータも開発します。
関連論文リスト
- DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。
我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。
私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文 参考訳(メタデータ) (2024-07-01T18:58:22Z) - MR-BEN: A Comprehensive Meta-Reasoning Benchmark for Large Language Models [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
メタ推論スキルを必要とするプロセスベースのベンチマークを提案する。
MR-BENは、人間の専門家から収集された5,975の質問からなる総合的なベンチマークである。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。
本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文 参考訳(メタデータ) (2024-03-21T10:31:11Z) - SuperTweetEval: A Challenging, Unified and Heterogeneous Benchmark for
Social Media NLP Research [33.698581876383074]
ソーシャルメディアのSuperTweetEvalにおいて,NLP評価のための統一ベンチマークを導入する。
SuperTweetEvalで幅広いモデルのパフォーマンスをベンチマークした結果、最近の言語モデリングの進歩にもかかわらず、ソーシャルメディアは依然として困難な状態にあることが示唆された。
論文 参考訳(メタデータ) (2023-10-23T09:48:25Z) - Benchmark tasks for Quality-Diversity applied to Uncertain domains [1.5469452301122175]
実装が容易で軽量な8つのタスクを3つのカテゴリに分けて紹介します。
我々は、UQDベンチマークタスクを簡単に定義するための重要な不確実性を特定する。
私たちのタスクはすべて、Redundant Arm上に構築されています。
論文 参考訳(メタデータ) (2023-04-24T21:23:26Z) - Towards QD-suite: developing a set of benchmarks for Quality-Diversity
algorithms [0.0]
既存のベンチマークは標準化されておらず、現在、品質多様性(QD)に匹敵するMNISTはない。
我々は、QD手法が直面する課題の特定と、目標とする、挑戦的でスケーラブルなベンチマークの開発が重要なステップであると主張している。
論文 参考訳(メタデータ) (2022-05-06T13:33:50Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - A critical analysis of metrics used for measuring progress in artificial
intelligence [9.387811897655016]
我々は、3867の機械学習モデルのパフォーマンス結果をカバーするデータに基づいて、現在のパフォーマンス指標の状況を分析する。
結果から、現在使用されているメトリクスの大部分は、モデルの性能の不十分なリフレクションをもたらす可能性のある特性を持っていることが示唆される。
報告された指標の曖昧さを記述し、モデル性能の解釈と比較が困難になる可能性がある。
論文 参考訳(メタデータ) (2020-08-06T11:14:37Z) - Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。
本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。
4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文 参考訳(メタデータ) (2020-02-27T10:22:17Z) - Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。
マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。
このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文 参考訳(メタデータ) (2020-01-06T13:37:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。