論文の概要: Automatic Error Analysis for Document-level Information Extraction
- arxiv url: http://arxiv.org/abs/2209.07442v1
- Date: Thu, 15 Sep 2022 16:43:09 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-16 12:47:14.213396
- Title: Automatic Error Analysis for Document-level Information Extraction
- Title(参考訳): 文書レベル情報抽出のための誤り自動解析
- Authors: Aliva Das, Xinya Du, Barry Wang, Kejian Shi, Jiayuan Gu, Thomas
Porter, Claire Cardie
- Abstract要約: 文書レベルの事象と(N-ary)関係抽出における誤り解析の自動化のための変換に基づくフレームワークを提案する。
3つのドメインのデータセットに対して、最先端のドキュメントレベルのテンプレート補完アプローチを2つ比較するために、当社のフレームワークを使用します。
- 参考スコア(独自算出の注目度): 27.89668258803405
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document-level information extraction (IE) tasks have recently begun to be
revisited in earnest using the end-to-end neural network techniques that have
been successful on their sentence-level IE counterparts. Evaluation of the
approaches, however, has been limited in a number of dimensions. In particular,
the precision/recall/F1 scores typically reported provide few insights on the
range of errors the models make. We build on the work of Kummerfeld and Klein
(2013) to propose a transformation-based framework for automating error
analysis in document-level event and (N-ary) relation extraction. We employ our
framework to compare two state-of-the-art document-level template-filling
approaches on datasets from three domains; and then, to gauge progress in IE
since its inception 30 years ago, vs. four systems from the MUC-4 (1992)
evaluation.
- Abstract(参考訳): 文書レベルの情報抽出(ie)タスクは最近、文レベルのieで成功したエンドツーエンドのニューラルネットワーク技術を使って本格的に再訪し始めた。
しかし、アプローチの評価は多くの次元で制限されている。
特に、通常報告されている精度/リコール/F1スコアは、モデルが犯すエラーの範囲についての洞察をほとんど与えない。
文書レベルの事象と(N-ary)関係抽出におけるエラー解析を自動化する変換ベースのフレームワークを提案するために,Kummerfeld と Klein (2013) の作業を基に構築した。
MUC-4(1992)の評価から得られた4つのシステムに対して,30年前以降のIEの進展を計測するために,我々は,最先端の文書レベルのテンプレート補完手法を3つのドメインのデータセット上で比較した。
関連論文リスト
- Probing Representations for Document-level Event Extraction [30.523959637364484]
この研究は、文書レベルの情報抽出で学んだ表現に探索パラダイムを適用した最初のものである。
文書レベルのイベント抽出に関連するサーフェス,セマンティクス,イベント理解機能を分析するために,8つの埋め込みプローブを設計した。
これらのモデルからトレーニングされたエンコーダは、わずかに引数の検出とラベリングを改善することができるが、イベントレベルのタスクをわずかに強化するだけである。
論文 参考訳(メタデータ) (2023-10-23T19:33:04Z) - Incorporating Relevance Feedback for Information-Seeking Retrieval using
Few-Shot Document Re-Ranking [56.80065604034095]
我々は,クエリとユーザが関連すると考えるドキュメントとの類似性に基づいて,文書を再参照するkNNアプローチを提案する。
異なる統合戦略を評価するため、既存の4つの情報検索データセットを関連フィードバックシナリオに変換する。
論文 参考訳(メタデータ) (2022-10-19T16:19:37Z) - Generalization Properties of Retrieval-based Models [50.35325326050263]
検索ベースの機械学習手法は、幅広い問題で成功をおさめた。
これらのモデルの約束を示す文献が増えているにもかかわらず、そのようなモデルの理論的基盤はいまだに解明されていない。
本稿では,その一般化能力を特徴付けるために,検索ベースモデルの形式的処理を行う。
論文 参考訳(メタデータ) (2022-10-06T00:33:01Z) - Deconstructing Self-Supervised Monocular Reconstruction: The Design
Decisions that Matter [63.5550818034739]
本稿では,自己教師付き単分子深度推定への最先端の貢献を評価するための枠組みを提案する。
事前トレーニング、バックボーン、アーキテクチャ設計の選択、損失関数が含まれる。
我々は16の最先端コントリビューションを再実装し、検証し、再評価し、新しいデータセットを導入します。
論文 参考訳(メタデータ) (2022-08-02T14:38:53Z) - A Span Extraction Approach for Information Extraction on Visually-Rich
Documents [2.3131309703965135]
視覚豊かな文書(VRD)を事前学習する言語モデルの能力向上のための新しいアプローチを提案する。
まず、クエリベースの新しいIEモデルを導入し、一般的に使用されるシーケンスラベリングアプローチの代わりにスパン抽出の定式化を採用する。
また、文書内の意味的エンティティ間の関係をモデル化することに焦点を当てた新しいトレーニングタスクを提案する。
論文 参考訳(メタデータ) (2021-06-02T06:50:04Z) - TSDAE: Using Transformer-based Sequential Denoising Auto-Encoder for
Unsupervised Sentence Embedding Learning [53.32740707197856]
TSDAE(Sequential Denoising Auto-Encoder)を用いた最新の非監視方式を提案する。
ドメイン内の監視されたアプローチのパフォーマンスの93.1%を達成することができる。
論文 参考訳(メタデータ) (2021-04-14T17:02:18Z) - Few-Shot Named Entity Recognition: A Comprehensive Study [92.40991050806544]
マルチショット設定のモデル一般化能力を向上させるための3つの手法を検討する。
ラベル付きデータの比率の異なる10の公開nerデータセットについて経験的比較を行う。
マルチショットとトレーニングフリーの両方の設定で最新の結果を作成します。
論文 参考訳(メタデータ) (2020-12-29T23:43:16Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - DWIE: an entity-centric dataset for multi-task document-level
information extraction [23.412500230644433]
DWIEは、4つの主要な情報抽出(IE)アノテーションサブタスクを組み合わせた、新しく作成されたマルチタスクデータセットである。
DWIEは、完全なドキュメントのレベルで概念的エンティティの相互作用と特性を記述するエンティティ中心のデータセットとして考えられている。
論文 参考訳(メタデータ) (2020-09-26T15:53:22Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。