論文の概要: LEGOBench: Leaderboard Generation Benchmark for Scientific Models
- arxiv url: http://arxiv.org/abs/2401.06233v1
- Date: Thu, 11 Jan 2024 19:20:27 GMT
- ステータス: 処理完了
- システム内更新日: 2024-01-15 20:54:38.842777
- Title: LEGOBench: Leaderboard Generation Benchmark for Scientific Models
- Title(参考訳): legobench: 科学モデルのためのリーダーボード生成ベンチマーク
- Authors: Shruti Singh, Shoaib Alam and Mayank Singh
- Abstract要約: LEGOBenchは、リーダボードを生成するシステムを評価するためのベンチマークである。
従来のグラフベースランキングモデルと,最近提案された3つの大規模言語モデルの性能評価を行った。
- 参考スコア(独自算出の注目度): 5.11624494597778
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The ever-increasing volume of paper submissions makes it difficult to stay
informed about the latest state-of-the-art research. To address this challenge,
we introduce LEGOBench, a benchmark for evaluating systems that generate
leaderboards. LEGOBench is curated from 22 years of preprint submission data in
arXiv and more than 11,000 machine learning leaderboards in the PapersWithCode
portal. We evaluate the performance of four traditional graph-based ranking
variants and three recently proposed large language models. Our preliminary
results show significant performance gaps in automatic leaderboard generation.
The code is available on https://github.com/lingo-iitgn/LEGOBench and the
dataset is hosted on
https://osf.io/9v2py/?view_only=6f91b0b510df498ba01595f8f278f94c .
- Abstract(参考訳): 論文の提出量は増え続けており、最新の最新研究について知るのが難しくなっている。
この課題に対処するために、リーダーボードを生成するシステムを評価するベンチマークであるLEGOBenchを紹介します。
LEGOBenchは、arXivの22年間のプレプリントデータとPapersWithCodeポータルの11,000以上の機械学習リーダーボードから作成されている。
従来のグラフベースランキングモデルと最近提案された3つの大規模言語モデルの性能評価を行った。
予備結果は, リーダボードの自動生成において有意な性能差を示した。
コードはhttps://github.com/lingo-iitgn/LEGOBenchで、データセットはhttps://osf.io/9v2py/?
view_only=6f91bb510df498ba01595f8f278f94c
関連論文リスト
- Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural
Language Processing Leaderboards [5.919860270977038]
与えられたテストデータセットの評価は、モデルの多くのパフォーマンス指標の1つにすぎない、と我々は主張する。
本稿では,現在のリーダーボードシステムにおけるこれらの課題に対処する,新しいリーダーボードシステムパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-20T06:13:03Z) - Graph Learning Indexer: A Contributor-Friendly and Metadata-Rich
Platform for Graph Learning Benchmarks [11.972121836128592]
Graph Learning Indexer(GLI)は、グラフ学習のためのベンチマークキュレーションプラットフォームである。
GLIは、Emphdatasetコントリビュータにインセンティブを与えるように設計されている。
GLIは、ベンチマークデータセットの単純なコレクションではなく、知識ベースをキュレートする。
論文 参考訳(メタデータ) (2022-12-08T19:57:01Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - TURINGBENCH: A Benchmark Environment for Turing Test in the Age of
Neural Text Generation [13.14861116831669]
20のラベルにまたがる200万の人または機械生成サンプルからなるデータセットからなるTuringBenchベンチマーク環境を提案する。
TuringBench を用いた予備実験の結果、FAIR_wmt20 と GPT-3 が現在の勝者であることが示された。
論文 参考訳(メタデータ) (2021-09-27T18:35:33Z) - Small-Bench NLP: Benchmark for small single GPU trained models in
Natural Language Processing [0.0]
Small-Bench NLPは、単一のGPUでトレーニングされた小さな効率のよいニューラルネットワークモデルのベンチマークである。
我々のELECTRA-DeBERTa小モデルアーキテクチャは、BERT-Baseの82.20(110Mパラメータ)に匹敵する平均スコア81.53を達成する。
論文 参考訳(メタデータ) (2021-09-22T17:18:55Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding
and Generation [72.90209988513995]
CodeXGLUEは、プログラムの理解と生成のための機械学習研究を促進するためのベンチマークデータセットである。
CodeXGLUEには、14データセットにわたる10タスクのコレクションと、モデル評価と比較のためのプラットフォームが含まれている。
論文 参考訳(メタデータ) (2021-02-09T06:16:25Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z) - GLGE: A New General Language Generation Evaluation Benchmark [139.25515221280767]
General Language Generation Evaluation (GLGE)は、NLGモデルの一般化能力を評価するための新しいマルチタスクベンチマークである。
NLGモデルにおける事前学習と伝達学習の研究を促進するため、GLGEを一般公開し、強力なベースラインを持つリーダーボードを構築する。
論文 参考訳(メタデータ) (2020-11-24T06:59:45Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。