論文の概要: EXPLAINABOARD: An Explainable Leaderboard for NLP
- arxiv url: http://arxiv.org/abs/2104.06387v1
- Date: Tue, 13 Apr 2021 17:45:50 GMT
- ステータス: 処理完了
- システム内更新日: 2021-04-14 15:23:40.488481
- Title: EXPLAINABOARD: An Explainable Leaderboard for NLP
- Title(参考訳): EXPLAINABOARD: NLPのための説明可能なリーダーボード
- Authors: Pengfei Liu, Jinlan Fu, Yang Xiao, Weizhe Yuan, Shuaicheng Chang,
Junqi Dai, Yixin Liu, Zihuiwen Ye, Graham Neubig
- Abstract要約: ExplainaBoardはNLP評価の新たな概念化と実装である。
研究者は(i)一つのシステムの強みと弱さを診断し、(ii)複数のシステム間の関係を解釈することができる。
- 参考スコア(独自算出の注目度): 69.59340280972167
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the rapid development of NLP research, leaderboards have emerged as one
tool to track the performance of various systems on various NLP tasks. They are
effective in this goal to some extent, but generally present a rather
simplistic one-dimensional view of the submitted systems, communicated only
through holistic accuracy numbers. In this paper, we present a new
conceptualization and implementation of NLP evaluation: the ExplainaBoard,
which in addition to inheriting the functionality of the standard leaderboard,
also allows researchers to (i) diagnose strengths and weaknesses of a single
system (e.g. what is the best-performing system bad at?) (ii) interpret
relationships between multiple systems. (e.g. where does system A outperform
system B? What if we combine systems A, B, C?) and (iii) examine prediction
results closely (e.g. what are common errors made by multiple systems or and in
what contexts do particular errors occur?). ExplainaBoard has been deployed at
\url{http://explainaboard.nlpedia.ai/}, and we have additionally released our
interpretable evaluation code at \url{https://github.com/neulab/ExplainaBoard}
and output files from more than 300 systems, 40 datasets, and 9 tasks to
motivate the "output-driven" research in the future.
- Abstract(参考訳): NLP研究の急速な発展に伴い、リーダーボードは様々なNLPタスクにおける各種システムの性能を追跡する一つのツールとして登場した。
それらはある程度この目標に有効であるが、一般的には全体的精度数を通してのみ伝達される、提出されたシステムのより単純な1次元のビューを示す。
本稿では,NLP評価の新たな概念化と実装について述べる: ExplainaBoardは,標準のリーダボードの機能を継承するだけでなく,研究者が単一システム(例えば,)の強度や弱点を診断することを可能にする。
最もパフォーマンスの悪いシステムは何か?
(ii)複数のシステム間の関係を解釈する。
(例)
システムAはシステムBより優れているのか?
システムa、b、cを組み合わせるとどうなるか?
そして(iii)予測結果を綿密に検討する(例)
複数のシステムで発生する一般的なエラーとは何であり、特定のエラーが発生するのか?
ExplainaBoardは \url{https://github.com/neulab/ExplainaBoard} でデプロイされ、300以上のシステムからファイル、40のデータセット、9つのタスクを出力し、将来的には「アウトプット駆動」の研究を動機付けるための解釈可能な評価コードもリリースしました。
関連論文リスト
- Efficient Performance Tracking: Leveraging Large Language Models for Automated Construction of Scientific Leaderboards [67.65408769829524]
科学的リーダーボードは、競争方法の評価と比較を容易にする標準化されたランキングシステムである。
出版物の増加により、これらのリーダーボードを手動で構築し維持することは不可能になった。
手作業の削減の解決策として リーダーボードの 自動構築が登場しました
論文 参考訳(メタデータ) (2024-09-19T11:12:27Z) - Joint Speech Activity and Overlap Detection with Multi-Exit Architecture [5.4878772986187565]
オーバーラップ音声検出(OSD)は、多人数変換のシナリオにおける音声応用において重要である。
本研究は,新たな視点からVADとOSDの共同作業について検討する。
特に,従来の分類網をマルチエグジットアーキテクチャで拡張することを提案する。
論文 参考訳(メタデータ) (2022-09-24T02:34:11Z) - PGX: A Multi-level GNN Explanation Framework Based on Separate Knowledge
Distillation Processes [0.2005299372367689]
本稿では,GNNがグラフデータにおける複数のコンポーネントのマルチモーダル学習プロセスであることを示す,多段階GNN説明フレームワークを提案する。
元の問題の複雑さは、階層構造として表される複数の部分部分に分解することで緩和される。
このフレームワークはユーザの好みに基づいて異なる結果を生成することができるため、パーソナライズされた説明も目的としている。
論文 参考訳(メタデータ) (2022-08-05T10:14:48Z) - A novel evaluation methodology for supervised Feature Ranking algorithms [0.0]
本稿では,特徴ランクの新たな評価手法を提案する。
合成データセットを使用することで、特徴重要度スコアを事前に知ることができ、より体系的な評価が可能になる。
新しい方法論を使った大規模な実験を容易にするため、fsevalと呼ばれるベンチマークフレームワークがPythonで構築された。
論文 参考訳(メタデータ) (2022-07-09T12:00:36Z) - BLISS: Robust Sequence-to-Sequence Learning via Self-Supervised Input
Representation [92.75908003533736]
本稿では,自己教師型入力表現を用いたフレームワークレベルの頑健なシーケンス・ツー・シーケンス学習手法BLISSを提案する。
我々は,機械翻訳,文法的誤り訂正,テキスト要約など,BLISSの様々なタスクにおける有効性を検証するための総合的な実験を行った。
論文 参考訳(メタデータ) (2022-04-16T16:19:47Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - What are the best systems? New perspectives on NLP Benchmarking [10.27421161397197]
そこで本研究では,各タスクのパフォーマンスに基づいて,システムにランク付けする新しい手法を提案する。
社会的選択理論によって動機付けられ、各タスクによって誘導されるランクを集約することで最終システム順序付けが得られる。
本手法は, 平均集約法とは異なる, 最先端システム上での結論を導出することを示す。
論文 参考訳(メタデータ) (2022-02-08T11:44:20Z) - Knowledge Graph Question Answering Leaderboard: A Community Resource to
Prevent a Replication Crisis [61.740077541531726]
コミュニティの焦点として、KGQAベンチマークデータセットに対して、新たな中心的でオープンなリーダボードを提供しています。
本分析は,KGQAシステムの評価において,既存の問題点を浮き彫りにする。
論文 参考訳(メタデータ) (2022-01-20T13:46:01Z) - SpanNer: Named Entity Re-/Recognition as Span Prediction [62.66148736099347]
スパン予測モデルは名前付きエンティティ認識に使用される。
我々は11のデータセットに154のシステムを実験的に実装し、3つの言語をカバーした。
私たちのモデルはExplainaBoardプラットフォームにデプロイされました。
論文 参考訳(メタデータ) (2021-06-01T17:11:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。