論文の概要: Let's Stop Incorrect Comparisons in End-to-end Relation Extraction!
- arxiv url: http://arxiv.org/abs/2009.10684v3
- Date: Mon, 9 Aug 2021 12:43:27 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-15 21:23:23.105714
- Title: Let's Stop Incorrect Comparisons in End-to-end Relation Extraction!
- Title(参考訳): エンドツーエンド関係抽出における誤った比較をやめよう!
- Authors: Bruno Taill\'e, Vincent Guigue, Geoffrey Scoutheeten and Patrick
Gallinari
- Abstract要約: 論文ではまず, 無効比較のいくつかのパターンを識別し, それらの伝播を避けるために記述する。
次に、最も一般的な誤りの影響を定量化し、それを評価し、ACE05上での最終的なRE性能を約5%過大評価する実験研究を提案する。
- 参考スコア(独自算出の注目度): 13.207968737733196
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Despite efforts to distinguish three different evaluation setups (Bekoulis et
al., 2018), numerous end-to-end Relation Extraction (RE) articles present
unreliable performance comparison to previous work. In this paper, we first
identify several patterns of invalid comparisons in published papers and
describe them to avoid their propagation. We then propose a small empirical
study to quantify the impact of the most common mistake and evaluate it leads
to overestimating the final RE performance by around 5% on ACE05. We also seize
this opportunity to study the unexplored ablations of two recent developments:
the use of language model pretraining (specifically BERT) and span-level NER.
This meta-analysis emphasizes the need for rigor in the report of both the
evaluation setting and the datasets statistics and we call for unifying the
evaluation setting in end-to-end RE.
- Abstract(参考訳): 3つの異なる評価設定(Bekoulis et al., 2018)を区別する努力にもかかわらず、多くのエンドツーエンド関係抽出(RE)記事は、以前の作業と比べて信頼性の低いパフォーマンスを示している。
本稿では,まず,論文中の不適切な比較パターンを識別し,それらの伝播を避けるために記述する。
次に、最も一般的な間違いの影響を定量化し、ace05における最終再実行性能を約5%過大評価する小さな実証研究を提案する。
また,この機会を利用して,言語モデル事前学習(特にBERT)とスパンレベルNERの2つの最近の発展の未解決点を研究する。
このメタアナリシスは、評価設定とデータセット統計の両方のレポートにおいて厳密性の必要性を強調し、エンドツーエンドREでの評価設定を統合することを要求する。
関連論文リスト
- Revisiting Relation Extraction in the era of Large Language Models [24.33660998599006]
関係抽出(RE)は、テキストからエンティティ間の意味的関係を推測する中核的なNLPタスクである。
近年の研究では、入力に条件付きで生成するターゲット文字列としてエンティティ間の関係を線形化することで、その問題を列列化タスクとして扱っている。
ここでは、従来の作業よりも大きい言語モデル(GPT-3とFlan-T5)を用いて、標準的なREタスクの性能を様々なレベルの監督下で評価し、このアプローチの限界を推し進める。
論文 参考訳(メタデータ) (2023-05-08T19:19:07Z) - Accounting for multiplicity in machine learning benchmark performance [0.0]
最先端のパフォーマンスをSOTA(State-of-the-art)のパフォーマンスの見積として使うのはバイアスのある推定器であり、過度に楽観的な結果をもたらす。
本稿では、複数の分類器の場合の確率分布について、既知の解析手法を適用できるようにし、より優れたSOTA推定値を提供する。
論文 参考訳(メタデータ) (2023-03-10T10:32:18Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - What do You Mean by Relation Extraction? A Survey on Datasets and Study
on Scientific Relation Classification [21.513743126525622]
本研究では,2つのデータセットの科学的関係分類に関する実証的研究を行った。
大量のデータの重複にもかかわらず,本分析はアノテーションにかなりの相違点を明らかにした。
さらにサブドメイン内での変化は存在するが、関係分類は限定的な程度にしか影響しない。
論文 参考訳(メタデータ) (2022-04-28T14:07:25Z) - A Closer Look at Debiased Temporal Sentence Grounding in Videos:
Dataset, Metric, and Approach [53.727460222955266]
テンポラル・センテンス・グラウンディング・イン・ビデオ(TSGV)は、未編集のビデオに自然言語文を埋め込むことを目的としている。
最近の研究では、現在のベンチマークデータセットには明らかなモーメントアノテーションバイアスがあることが判明している。
偏りのあるデータセットによる膨らませ評価を緩和するため、基礎的リコールスコアを割引する新しい評価基準「dR@n,IoU@m」を導入する。
論文 参考訳(メタデータ) (2022-03-10T08:58:18Z) - Just Rank: Rethinking Evaluation with Word and Sentence Similarities [105.5541653811528]
埋め込みの本質的な評価は かなり遅れています そして過去10年間 重要な更新は行われていません
本稿ではまず,単語と文の埋め込み評価におけるゴールドスタンダードとして意味的類似性を用いた問題点を指摘する。
本稿では,下流タスクとより強い相関関係を示すEvalRankという本質的な評価手法を提案する。
論文 参考訳(メタデータ) (2022-03-05T08:40:05Z) - Impact of Pretraining Term Frequencies on Few-Shot Reasoning [51.990349528930125]
事前学習された言語モデルが、事前学習データにおいてあまり頻度の低い用語でどの程度理にかなっているかを検討する。
我々は,様々な数値推論タスクにおいて,GPTに基づく言語モデルに対して,この相関関係の強さを計測する。
LMは数秒の数値推論タスクにおいて高い性能を示すが,本研究の結果は,事前学習データを超えるモデルが実際にどれだけ一般化されるのかという疑問を提起する。
論文 参考訳(メタデータ) (2022-02-15T05:43:54Z) - Reenvisioning Collaborative Filtering vs Matrix Factorization [65.74881520196762]
近年,行列因数分解に基づく協調フィルタリングモデルや,ニューラルネットワーク(ANN)を用いた類似性の学習が注目されている。
推薦エコシステム内でのANNの発表が最近疑問視され、効率性と有効性に関していくつかの比較がなされている。
本研究では,これらの手法が相補的評価次元に与える影響を解析しながら,超精度評価にもたらす可能性を示す。
論文 参考訳(メタデータ) (2021-07-28T16:29:38Z) - Re-TACRED: Addressing Shortcomings of the TACRED Dataset [5.820381428297218]
TACREDは、最大かつ最も広く使われている文レベルの関係抽出データセットの1つである。
このデータセットを用いて評価された提案モデルは、新しい最先端のパフォーマンスを一貫して設定する。
しかし、彼らはまだ大規模なテキストコーポラで外部の知識と教師なしの事前訓練を利用しながら大きなエラー率を示しています。
論文 参考訳(メタデータ) (2021-04-16T22:55:11Z) - A Statistical Analysis of Summarization Evaluation Metrics using
Resampling Methods [60.04142561088524]
信頼区間は比較的広く,信頼性の高い自動測定値の信頼性に高い不確実性を示す。
多くのメトリクスはROUGEよりも統計的改善を示していないが、QAEvalとBERTScoreという2つの最近の研究は、いくつかの評価設定で行われている。
論文 参考訳(メタデータ) (2021-03-31T18:28:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。