Fugu-MT 論文翻訳(概要): A Survey of Parameters Associated with the Quality of Benchmarks in NLP

論文の概要: A Survey of Parameters Associated with the Quality of Benchmarks in NLP

arxiv url: http://arxiv.org/abs/2210.07566v1
Date: Fri, 14 Oct 2022 06:44:14 GMT
ステータス: 翻訳完了
システム内更新日: 2022-10-17 15:05:23.327651
Title: A Survey of Parameters Associated with the Quality of Benchmarks in NLP
Title（参考訳）: NLPにおけるベンチマーク品質に関連するパラメータの検討
Authors: Swaroop Mishra, Anjana Arunkumar, Chris Bryan and Chitta Baral
Abstract要約: 最近の研究では、モデルがいくつかの人気のあるベンチマークに対して、望ましいタスクを本当に学習することなく、刺激的なバイアスに過度に適合していることが示されている。これらの問題に対する潜在的な解決策 - 量的定量化品質 - は、まだ未検討のままである。ベンチマークのバイアスにつながる様々な相互作用を表現できる特定の言語特性を特定することで、メトリックへの第一歩を踏み出します。
参考スコア（独自算出の注目度）: 24.6240575061124
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Several benchmarks have been built with heavy investment in resources to track our progress in NLP. Thousands of papers published in response to those benchmarks have competed to top leaderboards, with models often surpassing human performance. However, recent studies have shown that models triumph over several popular benchmarks just by overfitting on spurious biases, without truly learning the desired task. Despite this finding, benchmarking, while trying to tackle bias, still relies on workarounds, which do not fully utilize the resources invested in benchmark creation, due to the discarding of low quality data, and cover limited sets of bias. A potential solution to these issues -- a metric quantifying quality -- remains underexplored. Inspired by successful quality indices in several domains such as power, food, and water, we take the first step towards a metric by identifying certain language properties that can represent various possible interactions leading to biases in a benchmark. We look for bias related parameters which can potentially help pave our way towards the metric. We survey existing works and identify parameters capturing various properties of bias, their origins, types and impact on performance, generalization, and robustness. Our analysis spans over datasets and a hierarchy of tasks ranging from NLI to Summarization, ensuring that our parameters are generic and are not overfitted towards a specific task or dataset. We also develop certain parameters in this process.
Abstract（参考訳）: NLPの進捗を追跡するために、リソースに多大な投資をしながら、いくつかのベンチマークが構築されている。これらのベンチマークに反応して発行された何千もの論文は、トップのリーダーボードと競合している。しかし、最近の研究では、モデルが望ましいタスクを真に学習することなく、スプリアスバイアスを過剰に満たすだけで、いくつかの人気のあるベンチマークに勝っていることが示されている。この発見にもかかわらず、ベンチマークはバイアスに取り組みつつも、低い品質のデータを捨て、限られたバイアスセットをカバーするため、ベンチマーク作成に費やしたリソースを十分に活用しない回避策に依存している。これらの問題に対する潜在的な解決策 -- メトリック定量化品質 -- は未検討のままである。パワー、食品、水などのいくつかの領域における品質指標の成功にインスパイアされた私たちは、ベンチマークのバイアスにつながる様々な相互作用を表現できる特定の言語特性を特定することで、メトリックへの第一歩を踏み出します。私たちは、メトリクスへの道筋を舗装するのに役立つバイアス関連パラメータを探します。既存の作品を調査し,バイアス,その起源,タイプ,パフォーマンスへの影響,一般化,ロバスト性といった様々な特性を捉えたパラメータを同定する。我々の分析はデータセットと NLI から Summarization までのタスク階層にまたがっており、パラメータが汎用的であり、特定のタスクやデータセットに対して過度に適合しないことを保証する。このプロセスでは、特定のパラメータも開発します。

関連論文リスト

Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。 LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文参考訳（メタデータ） (2025-02-13T03:43:33Z)
BetterBench: Assessing AI Benchmarks, Uncovering Issues, and Establishing Best Practices [28.70453947993952]
我々は、AIベンチマークのライフサイクル全体で46のベストプラクティスを検討し、それに対して24のAIベンチマークを評価するアセスメントフレームワークを開発した。私たちは、大きな品質差があり、よく使われるベンチマークが重大な問題に悩まされていることに気付きました。
論文参考訳（メタデータ） (2024-11-20T02:38:24Z)
Beyond the Numbers: Transparency in Relation Extraction Benchmark Creation and Leaderboards [5.632231145349045]
本稿では,NLPにおけるベンチマーク作成の透明性と,NLPの進捗測定におけるリーダボードの利用について検討する。既存の関係抽出ベンチマークは、ドキュメントが不十分で重要な詳細が欠如していることが多い。議論の中心はREベンチマークとリーダボードの透明性ですが、議論する観察は他のNLPタスクにも広く適用できます。
論文参考訳（メタデータ） (2024-11-07T22:36:19Z)
LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。 LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文参考訳（メタデータ） (2024-10-14T17:51:23Z)
Investigating the Impact of Hard Samples on Accuracy Reveals In-class Data Imbalance [4.291589126905706]
AutoMLドメインでは、モデルの有効性を評価するための重要な指標として、テスト精度が宣言される。しかし、主性能指標としての試験精度の信頼性は疑問視されている。トレーニングセットとテストセット間のハードサンプルの分布は、これらのセットの難易度に影響を与える。本稿では,ハードサンプル識別法を比較するためのベンチマーク手法を提案する。
論文参考訳（メタデータ） (2024-09-22T11:38:14Z)
DiscoveryBench: Towards Data-Driven Discovery with Large Language Models [50.36636396660163]
我々は、データ駆動探索の多段階プロセスを形式化する最初の包括的なベンチマークであるDiscoveryBenchを紹介する。我々のベンチマークには、社会学や工学などの6つの分野にまたがる264のタスクが含まれている。私たちのベンチマークでは、自律的なデータ駆動型発見の課題を説明し、コミュニティが前進するための貴重なリソースとして役立ちます。
論文参考訳（メタデータ） (2024-07-01T18:58:22Z)
Is Reference Necessary in the Evaluation of NLG Systems? When and Where? [58.52957222172377]
基準自由度は人間の判断と高い相関を示し,言語品質の低下に対する感度が高いことを示す。本研究は,自動測定の適切な適用方法と,測定値の選択が評価性能に与える影響について考察する。
論文参考訳（メタデータ） (2024-03-21T10:31:11Z)
SuperTweetEval: A Challenging, Unified and Heterogeneous Benchmark for Social Media NLP Research [33.698581876383074]
ソーシャルメディアのSuperTweetEvalにおいて,NLP評価のための統一ベンチマークを導入する。 SuperTweetEvalで幅広いモデルのパフォーマンスをベンチマークした結果、最近の言語モデリングの進歩にもかかわらず、ソーシャルメディアは依然として困難な状態にあることが示唆された。
論文参考訳（メタデータ） (2023-10-23T09:48:25Z)
Towards QD-suite: developing a set of benchmarks for Quality-Diversity algorithms [0.0]
既存のベンチマークは標準化されておらず、現在、品質多様性(QD)に匹敵するMNISTはない。我々は、QD手法が直面する課題の特定と、目標とする、挑戦的でスケーラブルなベンチマークの開発が重要なステップであると主張している。
論文参考訳（メタデータ） (2022-05-06T13:33:50Z)
A Closer Look at Debiased Temporal Sentence Grounding in Videos: Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文参考訳（メタデータ） (2022-03-10T08:58:18Z)
Meta-Learned Confidence for Few-shot Learning [60.6086305523402]
数ショットのメトリックベースのアプローチのための一般的なトランスダクティブ推論手法は、最も確実なクエリ例の平均で、各クラスのプロトタイプを更新することである。本稿では,各クエリの信頼度をメタラーニングして,ラベルのないクエリに最適な重みを割り当てる手法を提案する。 4つのベンチマークデータセットに対してメタ学習の信頼度で、少数ショットの学習モデルを検証した。
論文参考訳（メタデータ） (2020-02-27T10:22:17Z)
Stance Detection Benchmark: How Robust Is Your Stance Detection? [65.91772010586605]
Stance Detection (StD) は、あるトピックやクレームに対する著者の姿勢を検出することを目的としている。マルチデータセット学習環境において、さまざまなドメインの10のStDデータセットから学習するStDベンチマークを導入する。このベンチマーク設定では、5つのデータセットに新しい最先端結果を表示することができます。
論文参考訳（メタデータ） (2020-01-06T13:37:51Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。