論文の概要: Iterative Document-level Information Extraction via Imitation Learning
- arxiv url: http://arxiv.org/abs/2210.06600v1
- Date: Wed, 12 Oct 2022 21:46:04 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-14 15:31:40.551004
- Title: Iterative Document-level Information Extraction via Imitation Learning
- Title(参考訳): 模倣学習による反復文書レベルの情報抽出
- Authors: Yunmo Chen, William Gantt, Weiwei Gu, Tongfei Chen, Aaron Steven
White, Benjamin Van Durme
- Abstract要約: 複雑な関係を抽出する新しい反復抽出モデルを提案する。
IterXは、名前付きスロットからドキュメントに含まれるテキストのスパンへのマッピングを表す。
我々の模倣学習アプローチは、事前に定義されたテンプレート命令を使用して抽出器を訓練する必要性を緩和する。
- 参考スコア(独自算出の注目度): 32.012467653148846
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present a novel iterative extraction (IterX) model for extracting complex
relations, or templates, i.e., N-tuples representing a mapping from named slots
to spans of text contained within a document. Documents may support zero or
more instances of a template of any particular type, leading to the tasks of
identifying the templates in a document, and extracting each template's slot
values. Our imitation learning approach relieves the need to use predefined
template orders to train an extractor and leads to state-of-the-art results on
two established benchmarks -- 4-ary relation extraction on SciREX and template
extraction on MUC-4 -- as well as a strong baseline on the new BETTER Granular
task.
- Abstract(参考訳): 複雑な関係やテンプレートを抽出するための新しい反復抽出(IterX)モデル,すなわち、名前付きスロットから文書に含まれるテキストのスパンへのマッピングを表すNタプルを提案する。
ドキュメントは、任意のタイプのテンプレートのゼロまたはそれ以上のインスタンスをサポートし、ドキュメント内のテンプレートを識別し、各テンプレートのスロット値を抽出するタスクにつながる。
我々の模倣学習アプローチは、抽出器のトレーニングに事前定義されたテンプレート命令を使用する必要をなくし、SciREXの4項関係抽出とMUC-4のテンプレート抽出という2つの確立されたベンチマークの最先端結果につながる。
関連論文リスト
- Detection and Measurement of Syntactic Templates in Generated Text [58.111650675717414]
モデルにおける一般的な反復を特徴付けるための構文的特徴の解析を行う。
モデルでは、下流のタスクにおいて、人間の参照テキストよりも高いレートでテンプレートテキストを生成する傾向にある。
論文 参考訳(メタデータ) (2024-06-28T19:34:23Z) - A Quality-based Syntactic Template Retriever for
Syntactically-controlled Paraphrase Generation [67.98367574025797]
既存の構文制御されたパラフレーズ生成モデルは、人間の注釈付きまたはよく書かれた構文テンプレートで有望に機能する。
禁止コストにより、ソース文ごとに適切なテンプレートを手作業で設計することは不可能になります。
本稿では,QSTR(Quality-based Syntactic Template Retriever)を提案する。
論文 参考訳(メタデータ) (2023-10-20T03:55:39Z) - Zero-shot Triplet Extraction by Template Infilling [13.295751492744081]
Triplet extractは、非構造化テキストからエンティティのペアとその対応する関係を抽出することを目的としている。
予め訓練された言語モデル (LM) 上で三重項抽出をテンプレート埋め込みタスクに還元することにより, 抽出モデルにゼロショット学習機能を持たせることができることを示す。
生成変換器の事前学習目標にタスク目標を整合させる新しいフレームワークZETTを提案し,未知の関係を一般化する。
論文 参考訳(メタデータ) (2022-12-21T00:57:24Z) - Jointly Learning Span Extraction and Sequence Labeling for Information
Extraction from Business Documents [1.6249267147413522]
本稿では,ビジネス文書の新しい情報抽出モデルを提案する。
これは、スパン抽出とシーケンスラベリングの両方の利点を考慮に入れている。
このモデルは2つのタスクを共同で最適化するために、エンドツーエンドで訓練されている。
論文 参考訳(メタデータ) (2022-05-26T15:37:24Z) - An Information-theoretic Approach to Prompt Engineering Without Ground
Truth Labels [55.06990011183662]
我々は、ラベル付き例やtextitwithout のモデルへの直接アクセスなしに、プロンプトテンプレートを選択する新しい方法を提案する。
7つの異なるNLPタスクを表す8つのデータセットにまたがって、テンプレートが高い相互情報を持つ場合、そのタスクに対して高い精度を持つことを示す。
論文 参考訳(メタデータ) (2022-03-21T21:51:43Z) - Document-level Entity-based Extraction as Template Generation [13.110360825201044]
本稿では2つの文書レベルEEタスクのための生成フレームワークを提案する: 役割充足者エンティティ抽出(REE)と関係抽出(RE)である。
まず、テンプレート生成問題として定式化し、モデルが依存性を効率的にキャプチャできるようにする。
キー情報の識別能力を高めるために、新しいクロスアテンションガイド付きコピー機構であるTopK Copyを事前訓練されたシーケンス・ツー・シーケンスモデルに組み込む。
論文 参考訳(メタデータ) (2021-09-10T14:18:22Z) - Key Information Extraction From Documents: Evaluation And Generator [3.878105750489656]
本研究プロジェクトは,文書からの情報抽出のための最先端モデルと比較する。
その結果,NLPに基づく事前処理はモデル性能に有益であることが示唆された。
境界ボックス回帰デコーダの使用により、長方形に従わないフィールドに対してのみモデル性能が向上する。
論文 参考訳(メタデータ) (2021-06-09T16:12:21Z) - GRIT: Generative Role-filler Transformers for Document-level Event
Entity Extraction [134.5580003327839]
本稿では、文書レベルでコンテキストをモデル化するための生成トランスフォーマーベースのエンコーダデコーダフレームワーク(GRIT)を紹介する。
我々は,MUC-4データセットに対する我々のアプローチを評価し,我々のモデルが先行作業よりもかなり優れていることを示す。
論文 参考訳(メタデータ) (2020-08-21T01:07:36Z) - ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured
Webpages [66.45377533562417]
本稿では,以前は見つからなかったテンプレートを用いたWebページからの「ゼロショット」オープンドメイン関係抽出手法を提案する。
我々のモデルは、グラフニューラルネットワークに基づくアプローチを使用して、Webページ上のテキストフィールドのリッチな表現を構築します。
論文 参考訳(メタデータ) (2020-05-14T16:15:58Z) - Extraction of Templates from Phrases Using Sequence Binary Decision
Diagrams [3.867363075280544]
本稿では、SeqBDD(Sequence Binary Decision Diagram)の緩和版を用いて、タグ付きテキストのみからテンプレートを抽出するための教師なしアプローチを提案する。
本論文の主な貢献はSeqBDD構築アルゴリズムの緩和形式であり、少量のデータから一般的な表現を作成できる。
実験の結果,ソーシャルメディアからの短いメッセージからコーパスやフレーズテンプレートから動詞+前置テンプレートをベースとしたタスクを高品質に抽出できることがわかった。
論文 参考訳(メタデータ) (2020-01-28T05:30:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。