論文の概要: LEGOBench: Scientific Leaderboard Generation Benchmark
- arxiv url: http://arxiv.org/abs/2401.06233v2
- Date: Wed, 21 Feb 2024 06:40:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-22 19:28:32.629060
- Title: LEGOBench: Scientific Leaderboard Generation Benchmark
- Title(参考訳): LEGOBench: 科学的リーダボード生成ベンチマーク
- Authors: Shruti Singh, Shoaib Alam, Husain Malwat and Mayank Singh
- Abstract要約: LEGOBenchは、科学的リーダーボードを生成するシステムを評価するためのベンチマークである。
本稿では,4つのグラフベースと2つの言語モデルに基づくリーダボード生成タスク構成を提案する。
State-of-the-artモデルはLEGOBench上でのリーダボードの自動生成において、大きなパフォーマンスギャップを示している。
- 参考スコア(独自算出の注目度): 4.552225219428999
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: The ever-increasing volume of paper submissions makes it difficult to stay
informed about the latest state-of-the-art research. To address this challenge,
we introduce LEGOBench, a benchmark for evaluating systems that generate
scientific leaderboards. LEGOBench is curated from 22 years of preprint
submission data on arXiv and more than 11k machine learning leaderboards on the
PapersWithCode portal. We present four graph-based and two language model-based
leaderboard generation task configurations. We evaluate popular encoder-only
scientific language models as well as decoder-only large language models across
these task configurations. State-of-the-art models showcase significant
performance gaps in automatic leaderboard generation on LEGOBench. The code is
available on GitHub ( https://github.com/lingo-iitgn/LEGOBench ) and the
dataset is hosted on OSF (
https://osf.io/9v2py/?view_only=6f91b0b510df498ba01595f8f278f94c ).
- Abstract(参考訳): 論文の提出量は増え続けており、最新の最新研究について知るのが難しくなっている。
この課題に対処するために、科学的リーダーボードを生成するシステムを評価するベンチマークであるLEGOBenchを紹介します。
LEGOBenchは、arXiv上の22年間のプレプリントデータとPapersWithCodeポータル上の11k以上の機械学習リーダーボードから作成されている。
我々は4つのグラフベースと2つの言語モデルベースのリーダーボード生成タスク構成を示す。
我々は、一般的なエンコーダのみの科学言語モデルとデコーダのみの大規模言語モデルを評価する。
最先端のモデルは、legobenchの自動リーダーボード生成において著しいパフォーマンスの差を示している。
コードはGitHub(https://github.com/lingo-iitgn/LEGOBench )で、データセットはOSF(https://osf.io/9v2py/?view_only=6f91b0b510df498ba01595f8f278f94c )でホストされている。
関連論文リスト
- Self-Improving-Leaderboard(SIL): A Call for Real-World Centric Natural
Language Processing Leaderboards [5.919860270977038]
与えられたテストデータセットの評価は、モデルの多くのパフォーマンス指標の1つにすぎない、と我々は主張する。
本稿では,現在のリーダーボードシステムにおけるこれらの課題に対処する,新しいリーダーボードシステムパラダイムを提案する。
論文 参考訳(メタデータ) (2023-03-20T06:13:03Z) - Graph Learning Indexer: A Contributor-Friendly and Metadata-Rich
Platform for Graph Learning Benchmarks [11.972121836128592]
Graph Learning Indexer(GLI)は、グラフ学習のためのベンチマークキュレーションプラットフォームである。
GLIは、Emphdatasetコントリビュータにインセンティブを与えるように設計されている。
GLIは、ベンチマークデータセットの単純なコレクションではなく、知識ベースをキュレートする。
論文 参考訳(メタデータ) (2022-12-08T19:57:01Z) - GEMv2: Multilingual NLG Benchmarking in a Single Line of Code [161.1761414080574]
Generation, Evaluation, and Metrics Benchmarkは、データセット、モデル、メトリック開発者のためのモジュラーインフラストラクチャを提供する。
GEMv2は51言語で40のドキュメントデータセットをサポートする。
すべてのデータセットのモデルはオンラインで評価でき、インタラクティブなデータカード作成とレンダリングツールによって、生きたベンチマークに新しいデータセットを簡単に追加できます。
論文 参考訳(メタデータ) (2022-06-22T17:52:30Z) - TURINGBENCH: A Benchmark Environment for Turing Test in the Age of
Neural Text Generation [13.14861116831669]
20のラベルにまたがる200万の人または機械生成サンプルからなるデータセットからなるTuringBenchベンチマーク環境を提案する。
TuringBench を用いた予備実験の結果、FAIR_wmt20 と GPT-3 が現在の勝者であることが示された。
論文 参考訳(メタデータ) (2021-09-27T18:35:33Z) - Small-Bench NLP: Benchmark for small single GPU trained models in
Natural Language Processing [0.0]
Small-Bench NLPは、単一のGPUでトレーニングされた小さな効率のよいニューラルネットワークモデルのベンチマークである。
我々のELECTRA-DeBERTa小モデルアーキテクチャは、BERT-Baseの82.20(110Mパラメータ)に匹敵する平均スコア81.53を達成する。
論文 参考訳(メタデータ) (2021-09-22T17:18:55Z) - Measuring Coding Challenge Competence With APPS [54.22600767666257]
コード生成のベンチマークであるAPPSを紹介する。
私たちのベンチマークには1万の問題が含まれています。
GPT-Neoのような最近のモデルでは、導入問題のテストケースの約15%をパスできる。
論文 参考訳(メタデータ) (2021-05-20T17:58:42Z) - CodeXGLUE: A Machine Learning Benchmark Dataset for Code Understanding
and Generation [72.90209988513995]
CodeXGLUEは、プログラムの理解と生成のための機械学習研究を促進するためのベンチマークデータセットである。
CodeXGLUEには、14データセットにわたる10タスクのコレクションと、モデル評価と比較のためのプラットフォームが含まれている。
論文 参考訳(メタデータ) (2021-02-09T06:16:25Z) - GENIE: A Leaderboard for Human-in-the-Loop Evaluation of Text Generation [83.10599735938618]
リーダーボードは、評価を標準化し、独立した外部リポジトリに委譲することで、多くのNLPデータセットのモデル開発を容易にしています。
本研究では、テキスト生成タスクにリーダーボードの容易さをもたらす人間評価リーダーボードであるGENIEを紹介します。
論文 参考訳(メタデータ) (2021-01-17T00:40:47Z) - GLGE: A New General Language Generation Evaluation Benchmark [139.25515221280767]
General Language Generation Evaluation (GLGE)は、NLGモデルの一般化能力を評価するための新しいマルチタスクベンチマークである。
NLGモデルにおける事前学習と伝達学習の研究を促進するため、GLGEを一般公開し、強力なベースラインを持つリーダーボードを構築する。
論文 参考訳(メタデータ) (2020-11-24T06:59:45Z) - Heuristic Semi-Supervised Learning for Graph Generation Inspired by
Electoral College [80.67842220664231]
本稿では,新たなノードやエッジを自動的に拡張して,高密度サブグラフ内のラベル類似性を向上する,新しい前処理手法であるElectoral College(ELCO)を提案する。
テストされたすべての設定において、我々の手法はベースモデルの平均スコアを4.7ポイントの広いマージンで引き上げるとともに、常に最先端のモデルよりも優れています。
論文 参考訳(メタデータ) (2020-06-10T14:48:48Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。