論文の概要: Few-Shot Document-Level Event Argument Extraction
- arxiv url: http://arxiv.org/abs/2209.02203v1
- Date: Tue, 6 Sep 2022 03:57:23 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-07 13:37:29.145535
- Title: Few-Shot Document-Level Event Argument Extraction
- Title(参考訳): 文書レベルのイベント引数抽出
- Authors: Xianjun Yang, Yujie Lu, Linda Petzold
- Abstract要約: イベント引数抽出(EAE)は文レベルではよく研究されているが、文書レベルでは未探索である。
FewDocAEは、ドキュメントレベルのイベント抽出データセットDocEEに基づいて、Few-Shotドキュメントレベルイベント引数抽出のベンチマークである。
- 参考スコア(独自算出の注目度): 2.680014762694412
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event argument extraction (EAE) has been well studied at the sentence level
but under-explored at the document level. In this paper, we study to capture
event arguments that actually spread across sentences in documents. Prior works
mainly assume full access to rich document supervision, ignoring the fact that
the argument supervision is limited in documents. To fill this gap, we present
FewDocAE, a Few-Shot Document-Level Event Argument Extraction benchmark, based
on the largest document-level event extraction dataset DocEE. We first define
the new problem and reconstruct the corpus by a novel N-Way-D-Doc sampling
instead of the traditional N-Way-K-Shot strategy. Then we adjust the advanced
document-level neural models into the few-shot setting to provide baseline
results under in- and cross-domain settings. Since the argument extraction
depends on the context from multiple sentences and the learning process is
limited to very few examples, we find the task to be very challenging with
substantively low performance. Considering FewDocAE is closely related to
practical use under low-resource regimes, we hope this benchmark encourages
more research in this direction. Our data and codes will be available online.
- Abstract(参考訳): イベント引数抽出(EAE)は文レベルではよく研究されているが、文書レベルでは未探索である。
本稿では,文書中の文中に実際に分布するイベント引数をキャプチャする手法について検討する。
先行研究は主にリッチな文書監督への完全なアクセスを前提としており、議論の監督は文書に制限されているという事実を無視している。
このギャップを埋めるために,ドキュメントレベルの最大イベント抽出データセットdoceeに基づく,ドキュメントレベルのイベント引数抽出ベンチマークである fewdocae を提案する。
まず,新しい問題を定義し,従来のN-Way-K-Shot戦略の代わりに新しいN-Way-D-Docサンプリングによってコーパスを再構築する。
次に、高度な文書レベルのニューラルモデルを数ショット設定に調整し、ドメイン内およびクロスドメイン設定でベースライン結果を提供する。
引数の抽出は複数の文の文脈に依存しており、学習プロセスはごく少数の例に限られているため、そのタスクは仮定的に低いパフォーマンスで非常に困難であることがわかった。
FewDocAEは低リソース体制下での実践的利用と密接に関連しているので、このベンチマークがさらなる研究を促進することを願っている。
データとコードはオンラインで公開されます。
関連論文リスト
- Contextual Document Embeddings [77.22328616983417]
本稿では,コンテキスト化された文書埋め込みのための2つの補完手法を提案する。
第一に、文書近傍を明示的にバッチ内コンテキスト損失に組み込む別のコントラスト学習目標である。
第二に、隣接する文書情報をエンコードされた表現に明示的にエンコードする新しいコンテキストアーキテクチャ。
論文 参考訳(メタデータ) (2024-10-03T14:33:34Z) - In-context Pretraining: Language Modeling Beyond Document Boundaries [137.53145699439898]
In-Context Pretrainingは、言語モデルが関連するドキュメントのシーケンスで事前トレーニングされる新しいアプローチである。
本稿では, 近接探索を効率的に行うための近似アルゴリズムを提案する。
より複雑なコンテキスト推論を必要とするタスクの顕著な改善が見られます。
論文 参考訳(メタデータ) (2023-10-16T17:57:12Z) - DAPR: A Benchmark on Document-Aware Passage Retrieval [57.45793782107218]
我々は,このタスクemphDocument-Aware Passage Retrieval (DAPR)を提案する。
State-of-The-Art(SoTA)パスレトリバーのエラーを分析しながら、大きなエラー(53.5%)は文書コンテキストの欠如に起因する。
提案するベンチマークにより,検索システムの開発・比較を今後行うことができる。
論文 参考訳(メタデータ) (2023-05-23T10:39:57Z) - Information Extraction from Documents: Question Answering vs Token
Classification in real-world setups [0.0]
質問応答法と古典的トークン分類法を比較して,文書鍵情報抽出を行う。
我々の研究は、クリーンで比較的短いエンティティを扱う場合、トークン分類に基づくアプローチを用いるのが最善であることを示した。
論文 参考訳(メタデータ) (2023-04-21T14:43:42Z) - Dynamic Global Memory for Document-level Argument Extraction [63.314514124716936]
文書レベルのイベント引数抽出のための,新しいグローバルなニューラルジェネレーションベースのフレームワークを提案する。
文書メモリストアを使用してコンテキストイベント情報を記録し、それを暗黙的に明示的に活用することで、後のイベントの引数の復号に役立ちます。
実験結果から,我々のフレームワークは従来の手法よりも大幅に優れていたことが判明した。
論文 参考訳(メタデータ) (2022-09-18T23:45:25Z) - DocNLI: A Large-scale Dataset for Document-level Natural Language
Inference [55.868482696821815]
自然言語推論(NLI)は、様々なNLP問題を解決するための統一的なフレームワークとして定式化されている。
ドキュメントレベルのNLI用に新たに構築された大規模データセットであるDocNLIを紹介する。
論文 参考訳(メタデータ) (2021-06-17T13:02:26Z) - Document-Level Event Role Filler Extraction using Multi-Granularity
Contextualized Encoding [40.13163091122463]
イベントロールフィラーに対応するテキストの幅を決定するために、より大きなコンテキストのビューを必要とするため、イベント抽出は難しいタスクである。
まず、文書レベルのロールフィラー抽出において、エンドツーエンドのニューラルシーケンスモデルがどのように機能するかを検討する。
私たちの最高のシステムは、以前の作業よりもかなり優れたパフォーマンスを示します。
論文 参考訳(メタデータ) (2020-05-13T20:42:17Z) - Towards Making the Most of Context in Neural Machine Translation [112.9845226123306]
我々は、これまでの研究がグローバルな文脈をはっきりと利用しなかったと論じている。
本研究では,各文の局所的文脈を意図的にモデル化する文書レベルNMTフレームワークを提案する。
論文 参考訳(メタデータ) (2020-02-19T03:30:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。