論文の概要: A Survey of Document-Level Information Extraction
- arxiv url: http://arxiv.org/abs/2309.13249v1
- Date: Sat, 23 Sep 2023 04:18:24 GMT
- ステータス: 処理完了
- システム内更新日: 2023-09-26 21:14:53.792966
- Title: A Survey of Document-Level Information Extraction
- Title(参考訳): 文書レベル情報抽出に関する調査
- Authors: Hanwen Zheng, Sijia Wang, Lifu Huang
- Abstract要約: 本稿では,最近の文書レベルのIE文献を体系的にレビューする。
文書レベルのIEのタスクの残りの課題と同様に、これらの制限を識別する。
その結果,ラベル付けノイズ,エンティティ・コア参照の解決,推論の欠如が文書レベルのIEの性能に深刻な影響を与えていることがわかった。
- 参考スコア(独自算出の注目度): 22.355192306494242
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Document-level information extraction (IE) is a crucial task in natural
language processing (NLP). This paper conducts a systematic review of recent
document-level IE literature. In addition, we conduct a thorough error analysis
with current state-of-the-art algorithms and identify their limitations as well
as the remaining challenges for the task of document-level IE. According to our
findings, labeling noises, entity coreference resolution, and lack of
reasoning, severely affect the performance of document-level IE. The objective
of this survey paper is to provide more insights and help NLP researchers to
further enhance document-level IE performance.
- Abstract(参考訳): 文書レベルの情報抽出(IE)は自然言語処理(NLP)において重要な課題である。
本稿では,最近の文書レベルのIE文献を体系的にレビューする。
さらに,現在最先端のアルゴリズムを用いて徹底的なエラー解析を行い,その限界と文書レベルのIEの課題を識別する。
その結果,ラベル付けノイズ,エンティティ・コア参照の解決,推論の欠如は文書レベルのIEの性能に大きく影響した。
本研究の目的は,NLP研究者による文書レベルのIE性能の向上を支援することにある。
関連論文リスト
- Enhancing Document-level Argument Extraction with Definition-augmented Heuristic-driven Prompting for LLMs [0.0]
イベント引数抽出(EAE)は、構造化されていないテキストから構造化された情報を抽出するための重要な手段である。
本研究では,文書レベルEAEにおけるLarge Language Models (LLMs) の性能向上を目的とした定義拡張ヒューリスティック・プロンプト(DHP)手法を提案する。
論文 参考訳(メタデータ) (2024-08-30T19:03:14Z) - Assessing the Performance of Chinese Open Source Large Language Models in Information Extraction Tasks [12.400599440431188]
自然言語処理(NLP)における情報抽出(IE)の役割
英語IEタスクに焦点をあてた最近の実験は、LLM(Large Language Models)が最適性能を達成する上で直面する課題に光を当てている。
論文 参考訳(メタデータ) (2024-06-04T08:00:40Z) - LLM-DA: Data Augmentation via Large Language Models for Few-Shot Named
Entity Recognition [67.96794382040547]
$LLM-DA$は、数発のNERタスクのために、大きな言語モデル(LLM)に基づいた、新しいデータ拡張テクニックである。
提案手法では,14のコンテキスト書き換え戦略を採用し,同一タイプのエンティティ置換を設計し,ロバスト性を高めるためにノイズ注入を導入する。
論文 参考訳(メタデータ) (2024-02-22T14:19:56Z) - Information Extraction in Domain and Generic Documents: Findings from
Heuristic-based and Data-driven Approaches [0.0]
自然言語処理において,情報抽出が重要な役割を担っている。
IEタスクに対するドキュメントのジャンルと長さの影響。
両方のタスクで圧倒的なパフォーマンスを示す方法はひとつもなかった。
論文 参考訳(メタデータ) (2023-06-30T20:43:27Z) - InteractiveIE: Towards Assessing the Strength of Human-AI Collaboration
in Improving the Performance of Information Extraction [48.45550809455558]
文書からテンプレートをベースとした学習情報抽出の性能向上を図るために,対話IE(InteractiveIE)と呼ばれるプロキシをオンザフライで行う方法を提案する。
バイオメディカルおよび法的文書の実験では、トレーニングデータを取得するのが高価であり、AIのみのベースラインよりもInteractiveIEを使用したパフォーマンス改善の奨励的な傾向が明らかにされている。
論文 参考訳(メタデータ) (2023-05-24T02:53:22Z) - On Event Individuation for Document-Level Information Extraction [10.051706937866504]
我々は,この課題が事象の偏見に関する厄介な質問に対して決定的な回答を要求することを主張する。
これにより、テンプレートフィリングメトリクスの有用性、タスクのデータセットの品質、学習するモデルの能力に関する懸念が高まります。
論文 参考訳(メタデータ) (2022-12-19T18:30:36Z) - Layout-Aware Information Extraction for Document-Grounded Dialogue:
Dataset, Method and Demonstration [75.47708732473586]
視覚的にリッチな文書から構造的知識と意味的知識の両方を抽出するためのレイアウト対応文書レベル情報抽出データセット(LIE)を提案する。
LIEには製品および公式文書の4,061ページから3つの抽出タスクの62kアノテーションが含まれている。
実験の結果、レイアウトはVRDベースの抽出に不可欠であることが示され、システムデモでは、抽出された知識が、ユーザが関心を持っている答えを見つけるのに役立つことも確認されている。
論文 参考訳(メタデータ) (2022-07-14T07:59:45Z) - Denoising Relation Extraction from Document-level Distant Supervision [92.76441007250197]
本稿では,文書レベルのDSデータを複数の事前学習タスクで認知するDocREのための新しい事前学習モデルを提案する。
大規模DocREベンチマーク実験の結果,ノイズの多いDSデータから有用な情報を抽出し,有望な結果が得られることがわかった。
論文 参考訳(メタデータ) (2020-11-08T02:05:25Z) - Document-level Neural Machine Translation with Document Embeddings [82.4684444847092]
この研究は、複数の形式の文書埋め込みの観点から、詳細な文書レベルのコンテキストを活用することに重点を置いている。
提案する文書認識NMTは,大域的および局所的な文書レベルの手がかりをソース端に導入することにより,Transformerベースラインを強化するために実装されている。
論文 参考訳(メタデータ) (2020-09-16T19:43:29Z) - SciREX: A Challenge Dataset for Document-Level Information Extraction [56.83748634747753]
ドキュメントレベルで大規模な情報抽出データセットを作成するのは難しい。
複数のIEタスクを含む文書レベルのIEデータセットであるSciREXを紹介する。
我々は、従来の最先端のIEモデルをドキュメントレベルのIEに拡張する強力なベースラインとして、ニューラルモデルを開発する。
論文 参考訳(メタデータ) (2020-05-01T17:30:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。