論文の概要: Dynabench: Rethinking Benchmarking in NLP
- arxiv url: http://arxiv.org/abs/2104.14337v1
- Date: Wed, 7 Apr 2021 17:49:17 GMT
- ステータス: 処理完了
- システム内更新日: 2021-05-03 19:43:42.856674
- Title: Dynabench: Rethinking Benchmarking in NLP
- Title(参考訳): Dynabench: NLPのベンチマークを再考
- Authors: Douwe Kiela, Max Bartolo, Yixin Nie, Divyansh Kaushik, Atticus Geiger,
Zhengxuan Wu, Bertie Vidgen, Grusha Prasad, Amanpreet Singh, Pratik Ringshia,
Zhiyi Ma, Tristan Thrush, Sebastian Riedel, Zeerak Waseem, Pontus Stenetorp,
Robin Jia, Mohit Bansal, Christopher Potts, Adina Williams
- Abstract要約: 動的データセットの作成とモデルベンチマークのためのオープンソースプラットフォームであるdynabenchを紹介する。
DynabenchはWebブラウザで動作し、ループ内の人間とモデルデータセットの作成をサポートする。
私たちは、これらの概念を図示し、プラットフォームの約束を強調する4つの初期のNLPタスクを報告します。
- 参考スコア(独自算出の注目度): 82.26699038776812
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We introduce Dynabench, an open-source platform for dynamic dataset creation
and model benchmarking. Dynabench runs in a web browser and supports
human-and-model-in-the-loop dataset creation: annotators seek to create
examples that a target model will misclassify, but that another person will
not. In this paper, we argue that Dynabench addresses a critical need in our
community: contemporary models quickly achieve outstanding performance on
benchmark tasks but nonetheless fail on simple challenge examples and falter in
real-world scenarios. With Dynabench, dataset creation, model development, and
model assessment can directly inform each other, leading to more robust and
informative benchmarks. We report on four initial NLP tasks, illustrating these
concepts and highlighting the promise of the platform, and address potential
objections to dynamic benchmarking as a new standard for the field.
- Abstract(参考訳): 動的データセットの作成とモデルベンチマークのためのオープンソースプラットフォームであるdynabenchを紹介する。
dynabenchはwebブラウザ上で動作し、human-and-model-in-the-loopデータセットの作成をサポートする。
本稿では,Dynabenchが我々のコミュニティにおける重要なニーズに対処していると主張する。現代のモデルは,ベンチマークタスクにおいてすぐれたパフォーマンスを達成できるが,しかしながら,現実のシナリオでは単純な課題の例に失敗する。
dynabenchでは、データセットの作成、モデル開発、モデル評価が互いに直接情報を伝達し、より堅牢で有益なベンチマークとなる。
我々は4つの初期NLPタスクについて報告し、これらの概念を具現化し、プラットフォームの約束を強調し、動的ベンチマークに対する潜在的な反対に対処する。
関連論文リスト
- BENCHAGENTS: Automated Benchmark Creation with Agent Interaction [16.4783894348333]
BENCHAGENTSは,大規模言語モデル(LLM)を体系的に活用し,複雑な機能のためのベンチマーク作成を自動化するフレームワークである。
我々は、BENCHAGENTSを用いて、テキスト生成時の計画と制約満足度に関連する機能を評価するベンチマークを作成する。
次に、これらのベンチマークを使用して、7つの最先端モデルを調査し、共通の障害モードとモデルの違いに関する新たな洞察を抽出する。
論文 参考訳(メタデータ) (2024-10-29T22:56:18Z) - LiveXiv -- A Multi-Modal Live Benchmark Based on Arxiv Papers Content [62.816876067499415]
我々は、科学的ArXiv論文に基づくスケーラブルな進化型ライブベンチマークであるLiveXivを提案する。
LiveXivは、任意のタイムスタンプでドメイン固有の原稿にアクセスし、視覚的な問合せペアを自動的に生成することを提案する。
ベンチマークの最初のバージョンで、複数のオープンでプロプライエタリなLMM(Large Multi-modal Models)をベンチマークし、その挑戦的な性質を示し、モデルの真の能力を明らかにする。
論文 参考訳(メタデータ) (2024-10-14T17:51:23Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - A Large-Scale Evaluation of Speech Foundation Models [110.95827399522204]
音声処理ユニバーサルパフォーマンスベンチマーク(SUPERB)を構築し,基礎モデルパラダイムの有効性について検討する。
凍結基盤モデルを用いてSUPERBにおける音声処理タスクに対処する統合マルチタスクフレームワークを提案する。
論文 参考訳(メタデータ) (2024-04-15T00:03:16Z) - Benchmark Self-Evolving: A Multi-Agent Framework for Dynamic LLM
Evaluation [51.99752147380505]
本稿では,大規模言語モデル(LLM)を動的に評価するベンチマーク自己進化フレームワークを提案する。
マルチエージェントシステムを用いて、元のインスタンスのコンテキストや質問を操作し、信頼性の高い新しいインスタンスをフレーミングする。
我々のフレームワークは、異なるモデル間の性能の相違を拡大し、様々なタスクで同じモデル内で性能の相違を拡大します。
論文 参考訳(メタデータ) (2024-02-18T03:40:06Z) - Open World Object Detection in the Era of Foundation Models [53.683963161370585]
5つの実世界のアプリケーション駆動データセットを含む新しいベンチマークを導入する。
本稿では,オープンワールドのための新しいオブジェクト検出モデル(FOMO)を提案する。
論文 参考訳(メタデータ) (2023-12-10T03:56:06Z) - Dynaboard: An Evaluation-As-A-Service Platform for Holistic
Next-Generation Benchmarking [41.99715850562528]
ベンチマークをホスティングし、全体モデル比較を行うための評価・アズ・ア・サービスフレームワークであるDynaboardを紹介した。
我々のプラットフォームは、単一のデータセットで自己報告されたメトリクスや予測に頼るのではなく、NLPモデルを直接評価します。
論文 参考訳(メタデータ) (2021-05-21T01:17:52Z) - DynaSent: A Dynamic Benchmark for Sentiment Analysis [31.724648265584445]
dynasentは第3次感情分析(ポジティブ/ネガティブ/ニュートラル)のための新しい英語ベンチマークタスクである。
DynaSentは自然発生の文と、オープンソースのDynabench Platformを使って作成された文を組み合わせる。
合計121,634件の判決があり、それぞれ5人の群衆によって検証されている。
論文 参考訳(メタデータ) (2020-12-30T22:38:21Z) - Benchmarking Robustness of Machine Reading Comprehension Models [29.659586787812106]
我々は,4種類の敵攻撃下でのMRCモデルのロバスト性を評価するためのモデルに依存しない新しいベンチマークAdvRACEを構築した。
最新のSOTA(State-of-the-art)モデルがこれらすべての攻撃に対して脆弱であることを示す。
我々は、より堅牢なMCCモデルを構築する余地があることを結論し、我々のベンチマークはこの分野の進歩を動機づけ、測定するのに役立ちます。
論文 参考訳(メタデータ) (2020-04-29T08:05:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。