論文の概要: Writing Style Aware Document-level Event Extraction
- arxiv url: http://arxiv.org/abs/2201.03188v1
- Date: Mon, 10 Jan 2022 06:54:06 GMT
- ステータス: 処理完了
- システム内更新日: 2022-01-11 16:09:08.523373
- Title: Writing Style Aware Document-level Event Extraction
- Title(参考訳): 文書レベルのイベント抽出を意識した書き込みスタイル
- Authors: Zhuo Xu, Yue Wang, Lu Bai, Lixin Cui
- Abstract要約: イベント抽出技術は、ドキュメントから構造情報を自動取得することを目的としている。
既存の研究の多くは、トークンを異なる役割として区別し、文書の書式を無視してこの問題について議論している。
我々は、トークンの役割を判断するための重要な手がかりを含む書体スタイルと、そのようなパターンの無知がパフォーマンスの低下につながるかもしれないと論じる。
- 参考スコア(独自算出の注目度): 11.146719375024674
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Event extraction, the technology that aims to automatically get the
structural information from documents, has attracted more and more attention in
many fields. Most existing works discuss this issue with the token-level
multi-label classification framework by distinguishing the tokens as different
roles while ignoring the writing styles of documents. The writing style is a
special way of content organizing for documents and it is relative fixed in
documents with a special field (e.g. financial, medical documents, etc.). We
argue that the writing style contains important clues for judging the roles for
tokens and the ignorance of such patterns might lead to the performance
degradation for the existing works. To this end, we model the writing style in
documents as a distribution of argument roles, i.e., Role-Rank Distribution,
and propose an event extraction model with the Role-Rank Distribution based
Supervision Mechanism to capture this pattern through the supervised training
process of an event extraction task. We compare our model with state-of-the-art
methods on several real-world datasets. The empirical results show that our
approach outperforms other alternatives with the captured patterns. This
verifies the writing style contains valuable information that could improve the
performance of the event extraction task.
- Abstract(参考訳): 文書から構造情報を自動取得することを目的としたイベント抽出技術は、多くの分野で注目を集めている。
既存のほとんどの研究は、トークンを異なる役割として区別し、文書の書式を無視してトークンレベルのマルチラベル分類フレームワークでこの問題について議論している。
書体は、文書を整理する特別な方法であり、専門分野(財務、医療文書など)の文書に相対的に固定されている。
文字スタイルにはトークンの役割を判断するための重要な手がかりが含まれており、そのようなパターンの無知は既存の作品のパフォーマンス低下につながる可能性がある。
そこで,本稿では,文書中の記述スタイルをロール・ランド分布の分布としてモデル化し,ロール・ランド分布に基づくスーパービジョン機構を用いたイベント抽出モデルを提案し,イベント抽出タスクの教師付きトレーニングプロセスを通じてこのパターンを捉える。
いくつかの実世界のデータセットの最先端手法と比較した。
実験の結果,我々のアプローチは捕獲したパターンで他の手法よりも優れていることがわかった。
これにより、イベント抽出タスクのパフォーマンスを改善する貴重な情報を含む書き込みスタイルを検証することができる。
関連論文リスト
- Unified Multi-Modal Interleaved Document Representation for Information Retrieval [57.65409208879344]
我々は、異なるモダリティでインターリーブされた文書を均等に埋め込み、より包括的でニュアンスのある文書表現を生成する。
具体的には、テキスト、画像、テーブルの処理と統合を統一されたフォーマットと表現に統合する、近年のビジョン言語モデルの能力を活用して、これを実現する。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Leveraging Collection-Wide Similarities for Unsupervised Document Structure Extraction [61.998789448260005]
本稿では,コレクション内の文書の典型的構造を特定することを提案する。
任意のヘッダのパラフレーズを抽象化し、各トピックを各ドキュメントのロケーションにグルーピングします。
文書間の類似性を利用した教師なしグラフベース手法を開発した。
論文 参考訳(メタデータ) (2024-02-21T16:22:21Z) - On Task-personalized Multimodal Few-shot Learning for Visually-rich
Document Entity Retrieval [59.25292920967197]
VDER(Few-shot document entity search)は、NLPアプリケーションにおいて重要なトピックである。
FewVEXは、エンティティレベルの少数ショットVDERの分野における将来の研究を促進するための、新しいデータセットである。
本稿では,タスクパーソナライズを効果的に実現することを中心に,タスク認識型メタラーニングベースのフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-01T17:51:43Z) - Unified Pretraining Framework for Document Understanding [52.224359498792836]
文書理解のための統合事前学習フレームワークであるUDocを紹介する。
UDocは、ほとんどのドキュメント理解タスクをサポートするように設計されており、Transformerを拡張してマルチモーダル埋め込みを入力とする。
UDocの重要な特徴は、3つの自己管理的損失を利用して汎用的な表現を学ぶことである。
論文 参考訳(メタデータ) (2022-04-22T21:47:04Z) - Synthetic Document Generator for Annotation-free Layout Recognition [15.657295650492948]
本稿では,空間的位置,範囲,レイアウト要素のカテゴリを示すラベル付きリアル文書を自動生成する合成文書生成装置について述べる。
合成文書上で純粋に訓練された深層レイアウト検出モデルが,実文書を用いたモデルの性能と一致することを実証的に示す。
論文 参考訳(メタデータ) (2021-11-11T01:58:44Z) - Event Extraction by Associating Event Types and Argument Roles [26.877240015683636]
イベント抽出(EE)は、イベントタイプ分類と要素抽出の2つのサブタスクに分けられる。
本稿では,脳波タスクのための新しいニューラルネットワークフレームワークを提案する。
実験結果から,本手法は両サブタスクにおいて,最先端のEE手法よりも一貫して優れていることがわかった。
論文 参考訳(メタデータ) (2021-08-23T10:09:39Z) - SelfDoc: Self-Supervised Document Representation Learning [46.22910270334824]
SelfDocは、文書イメージ理解のためのタスクに依存しない事前トレーニングフレームワークである。
本フレームワークは,文書中の意味的に意味のあるすべてのコンポーネントの位置情報,テキスト情報,視覚情報を利用する。
複数のダウンストリームタスクにおいて,事前学習段階で使用する文書イメージが従来よりも大幅に少なく,優れたパフォーマンスを実現している。
論文 参考訳(メタデータ) (2021-06-07T04:19:49Z) - DOC2PPT: Automatic Presentation Slides Generation from Scientific
Documents [76.19748112897177]
文書・スライド生成のための新しい課題とアプローチを提案する。
エンドツーエンドでタスクに取り組むための階層的なシーケンス・ツー・シーケンスアプローチを提案する。
提案手法では,文書やスライド内の固有構造を利用して,パラフレーズとレイアウト予測モジュールを組み込んでスライドを生成する。
論文 参考訳(メタデータ) (2021-01-28T03:21:17Z) - Robust Document Representations using Latent Topics and Metadata [17.306088038339336]
本稿では,文書分類問題に対する事前学習型ニューラルネットワークモデルの微調整手法を提案する。
テキストとメタデータの両方をタスク形式でキャプチャする文書表現を生成します。
私たちのソリューションでは、メタデータを単にテキストで拡張するのではなく、明示的に組み込んでいます。
論文 参考訳(メタデータ) (2020-10-23T21:52:38Z) - Towards a Multi-modal, Multi-task Learning based Pre-training Framework
for Document Representation Learning [5.109216329453963]
本稿では,新しい事前学習タスクとして,文書トピックモデリングと文書シャッフル予測を導入する。
本稿では,Longformer ネットワークアーキテクチャをバックボーンとして,複数ページの文書からのマルチモーダル情報をエンド・ツー・エンドで符号化する。
論文 参考訳(メタデータ) (2020-09-30T05:39:04Z) - Learning to Select Bi-Aspect Information for Document-Scale Text Content
Manipulation [50.01708049531156]
我々は、テキストスタイルの転送とは逆の文書スケールのテキストコンテンツ操作という、新しい実践的なタスクに焦点を当てる。
詳細は、入力は構造化されたレコードと、別のレコードセットを記述するための参照テキストのセットである。
出力は、ソースレコードセットの部分的内容と参照の書き込みスタイルを正確に記述した要約である。
論文 参考訳(メタデータ) (2020-02-24T12:52:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。