論文の概要: Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural
Language Processing Leaderboards
- arxiv url: http://arxiv.org/abs/2303.10888v1
- Date: Mon, 20 Mar 2023 06:13:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-03-21 16:42:27.674233
- Title: Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural
Language Processing Leaderboards
- Title(参考訳): 自己改善型リーダーボード(sil: self-improving-leaderboard) : 現実世界中心の自然言語処理用リーダーボード
- Authors: Chanjun Park, Hyeonseok Moon, Seolhwa Lee, Jaehyung Seo, Sugyeong Eo
and Heuiseok Lim
- Abstract要約: 与えられたテストデータセットの評価は、モデルの多くのパフォーマンス指標の1つにすぎない、と我々は主張する。
本稿では,現在のリーダーボードシステムにおけるこれらの課題に対処する,新しいリーダーボードシステムパラダイムを提案する。
- 参考スコア(独自算出の注目度): 5.919860270977038
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Leaderboard systems allow researchers to objectively evaluate Natural
Language Processing (NLP) models and are typically used to identify models that
exhibit superior performance on a given task in a predetermined setting.
However, we argue that evaluation on a given test dataset is just one of many
performance indications of the model. In this paper, we claim leaderboard
competitions should also aim to identify models that exhibit the best
performance in a real-world setting. We highlight three issues with current
leaderboard systems: (1) the use of a single, static test set, (2) discrepancy
between testing and real-world application (3) the tendency for
leaderboard-centric competition to be biased towards the test set. As a
solution, we propose a new paradigm of leaderboard systems that addresses these
issues of current leaderboard system. Through this study, we hope to induce a
paradigm shift towards more real -world-centric leaderboard competitions.
- Abstract(参考訳): リーダーボードシステムにより、研究者は自然言語処理(NLP)モデルを客観的に評価することができ、通常、所定のタスクにおいて優れたパフォーマンスを示すモデルを特定するのに使用される。
しかし、与えられたテストデータセットの評価は、モデルの多くのパフォーマンス指標の1つに過ぎないと論じる。
本稿では,現実の環境で最高のパフォーマンスを示すモデルを特定することを目的とした,リーダーボードコンペティションについても論じる。
現在のリーダボードシステムでは,(1)静的な単一のテストセットの使用,(2)テストと実世界のアプリケーション間の不一致,(3)リーダボード中心の競合がテストセットに偏る傾向,の3つの課題を強調する。
解決策として、現在のリーダーボードシステムのこれらの問題に対処する新しいリーダーボードシステムパラダイムを提案する。
本研究を通じて,より現実中心のリーダーボードコンペティションへパラダイムシフトを誘導したい。
関連論文リスト
- Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards [67.65408769829524]
科学的リーダーボードは、競争方法の評価と比較を容易にする標準化されたランキングシステムである。
出版物の増加により、これらのリーダーボードを手動で構築し維持することは不可能になった。
手作業の削減の解決策として リーダーボードの 自動構築が登場しました
論文 参考訳(メタデータ) (2024-09-19T11:12:27Z) - Software Mention Recognition with a Three-Stage Framework Based on BERTology Models at SOMD 2024 [0.0]
本稿では,Scholarly Publications shared-taskにおけるSoftware Mention DetectionにおけるサブタスクIのシステムについて述べる。
ベストパフォーマンスシステムは3段階のフレームワークを通じて名前付きエンティティ認識問題に対処する。
XLM-Rベースのモデルに基づくフレームワークは、重み付けされたF1スコア67.80%を実現し、ソフトウェアメンション認識タスクのサブタスクIの3位にチームに提供する。
論文 参考訳(メタデータ) (2024-04-23T17:06:24Z) - When Benchmarks are Targets: Revealing the Sensitivity of Large Language Model Leaderboards [9.751405901938895]
既存のリーダーボードでは,LLMの相対的な性能は細部まで非常に敏感であることが示されている。
一般的なマルチチョイス質問ベンチマーク(MMLUなど)では、選択の順序や解答の選択方法の変更など、ベンチマークに対する小さな摂動が最大8位までランクが変更されることが示されている。
論文 参考訳(メタデータ) (2024-02-01T19:12:25Z) - Disco-Bench: A Discourse-Aware Evaluation Benchmark for Language
Modelling [70.23876429382969]
本研究では,多種多様なNLPタスクに対して,文内談話特性を評価できるベンチマークを提案する。
ディスコ・ベンチは文学領域における9つの文書レベルのテストセットから構成されており、豊富な談話現象を含んでいる。
また,言語分析のために,対象モデルが談話知識を学習するかどうかを検証できる診断テストスイートを設計する。
論文 参考訳(メタデータ) (2023-07-16T15:18:25Z) - Resources for Brewing BEIR: Reproducible Reference Models and an
Official Leaderboard [47.73060223236792]
BEIRは18種類のドメイン/タスクの組み合わせで情報検索モデルを評価するためのベンチマークデータセットである。
我々の研究は、ベンチマークが完全な潜在能力を達成できない2つの欠点に対処しています。
論文 参考訳(メタデータ) (2023-06-13T00:26:18Z) - ELEVATER: A Benchmark and Toolkit for Evaluating Language-Augmented
Visual Models [102.63817106363597]
ELEVATERは、事前訓練された言語拡張ビジュアルモデルの比較と評価を行う最初のベンチマークである。
20の画像分類データセットと35のオブジェクト検出データセットで構成され、それぞれが外部知識で拡張されている。
研究コミュニティ向けのツールキットと評価プラットフォームをリリースします。
論文 参考訳(メタデータ) (2022-04-19T10:23:42Z) - How Robust are Model Rankings: A Leaderboard Customization Approach for
Equitable Evaluation [0.0]
トップリーダーボードのモデルは、現実世界のアプリケーションにデプロイされた場合、しばしば不満足に機能します。
本稿では,その難易度に基づいてサンプルを重み付けすることで,リーダボードを探索するタスク非依存手法を提案する。
リーダーボードは敵に攻撃される可能性があり、トップパフォーマンスモデルは必ずしもベストモデルであるとは限らない。
論文 参考訳(メタデータ) (2021-06-10T06:47:35Z) - Dynaboard: An Evaluation-As-A-Service Platform for Holistic
Next-Generation Benchmarking [41.99715850562528]
ベンチマークをホスティングし、全体モデル比較を行うための評価・アズ・ア・サービスフレームワークであるDynaboardを紹介した。
我々のプラットフォームは、単一のデータセットで自己報告されたメトリクスや予測に頼るのではなく、NLPモデルを直接評価します。
論文 参考訳(メタデータ) (2021-05-21T01:17:52Z) - EXPLAINABOARD: An Explainable Leaderboard for NLP [69.59340280972167]
ExplainaBoardはNLP評価の新たな概念化と実装である。
研究者は(i)一つのシステムの強みと弱さを診断し、(ii)複数のシステム間の関係を解釈することができる。
論文 参考訳(メタデータ) (2021-04-13T17:45:50Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。