論文の概要: RuREBus: a Case Study of Joint Named Entity Recognition and Relation
Extraction from e-Government Domain
- arxiv url: http://arxiv.org/abs/2010.15939v1
- Date: Thu, 29 Oct 2020 20:56:15 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-01 23:10:32.445228
- Title: RuREBus: a Case Study of Joint Named Entity Recognition and Relation
Extraction from e-Government Domain
- Title(参考訳): RuREBus: e-Government ドメインからの連名エンティティ認識と関係抽出を事例として
- Authors: Vitaly Ivanin and Ekaterina Artemova and Tatiana Batura and Vladimir
Ivanov and Veronika Sarkisyan and Elena Tutubalina and Ivan Smurov
- Abstract要約: 本稿では、国家機関が発行する文書からなる新しいコーパスに対して、名前付きエンティティ認識(NER)や関係抽出(RE)などの情報抽出手法の適用例を示す。
このコーパスの主な課題は、1) アノテーションスキームが一般的なドメインコーパスで使用されるものとは大きく異なり、2) 文書は英語以外の言語で記述されている。
- 参考スコア(独自算出の注目度): 7.6462329126769815
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: We show-case an application of information extraction methods, such as named
entity recognition (NER) and relation extraction (RE) to a novel corpus,
consisting of documents, issued by a state agency. The main challenges of this
corpus are: 1) the annotation scheme differs greatly from the one used for the
general domain corpora, and 2) the documents are written in a language other
than English. Unlike expectations, the state-of-the-art transformer-based
models show modest performance for both tasks, either when approached
sequentially, or in an end-to-end fashion. Our experiments have demonstrated
that fine-tuning on a large unlabeled corpora does not automatically yield
significant improvement and thus we may conclude that more sophisticated
strategies of leveraging unlabelled texts are demanded. In this paper, we
describe the whole developed pipeline, starting from text annotation, baseline
development, and designing a shared task in hopes of improving the baseline.
Eventually, we realize that the current NER and RE technologies are far from
being mature and do not overcome so far challenges like ours.
- Abstract(参考訳): 本稿では、国家機関が発行する文書からなる新しいコーパスに対して、名前付きエンティティ認識(NER)や関係抽出(RE)などの情報抽出手法の適用例を示す。
このコーパスの主な課題は次のとおりである。
1)アノテーションスキームは、一般ドメインコーパスで使用されるものとは大きく異なり、
2) 文書は英語以外の言語で記述されている。
期待と異なり、最先端のトランスフォーマーベースのモデルは、シーケンシャルに接近する場合やエンドツーエンドの方法で両方のタスクに控えめな性能を示している。
我々の実験は, 大規模未ラベルコーパスの微調整が自動的に大きな改善をもたらすわけではないことを実証したので, 未ラベルテキストを活用するためのより高度な戦略が求められていると結論付けることができる。
本稿では,テキストアノテーションからベースライン開発,ベースラインの改良を目的とした共有タスクの設計に至るまで,開発パイプライン全体について述べる。
最終的に、現在のNERとRE技術は決して成熟しておらず、私たちのような課題を乗り越えていないことに気づきました。
関連論文リスト
- On the Robustness of Document-Level Relation Extraction Models to Entity Name Variations [33.56352555780006]
本研究では,DocREモデルのエンティティ名のバリエーションに対する堅牢性について検討する。
本稿では,元となるエンティティ名をWikidataから名前に置き換えることで,エンティティにリネームされたドキュメントを生成するための原則的パイプラインを提案する。
実験結果から、3つの代表的なDocREモデルと2つのコンテキスト内モデルの両方が、エンティティ名のバリエーションに十分なロバスト性が欠如していることが判明した。
論文 参考訳(メタデータ) (2024-06-11T16:51:14Z) - DocTr: Document Transformer for Structured Information Extraction in
Documents [36.1145541816468]
本稿では、視覚的にリッチな文書から構造化情報を取り出すための新しい定式化について述べる。
既存のIOBタグやグラフベースの定式化の制限に対処することを目的としている。
我々は、エンティティをアンカーワードとバウンディングボックスとして表現し、エンティティリンクをアンカーワードの関連付けとして表現する。
論文 参考訳(メタデータ) (2023-07-16T02:59:30Z) - Understand the Dynamic World: An End-to-End Knowledge Informed Framework
for Open Domain Entity State Tracking [15.421012879083463]
Open Domain entity state trackingは、アクション記述が与えられたエンティティの妥当な状態変化(すなわち、[entity]の[属性]は、[before_state]と[after_state])を予測することを目的としています。
モデルがアクションによって引き起こされる任意の数のエンティティ状態変化を予測する必要がある一方で、ほとんどのエンティティはアクションとその属性に暗黙的に関連しており、状態はオープンな語彙から来ているため、それは難しいです。
我々は、オープンドメインのエンティティ状態追跡のための新しいエンドツーエンドの知識インフォームドフレームワーク、KIESTを提案し、関連するエンティティと属性を明示的に取り出す。
論文 参考訳(メタデータ) (2023-04-26T22:45:30Z) - Enriching Relation Extraction with OpenIE [70.52564277675056]
関係抽出(RE)は情報抽出(IE)のサブ分野である
本稿では,オープン情報抽出(OpenIE)の最近の取り組みがREの課題の改善にどのように役立つかを検討する。
本稿では,2つの注釈付きコーパスであるKnowledgeNetとFewRelを用いた実験により,拡張モデルの精度向上を実証した。
論文 参考訳(メタデータ) (2022-12-19T11:26:23Z) - Entity Disambiguation with Entity Definitions [50.01142092276296]
ローカルモデルはEntity Disambiguation (ED)で最近驚くべきパフォーマンスを達成した
それまでの研究は、各候補者のテキスト表現として、ウィキペディアのタイトルのみを使うことに限られていた。
本稿では、この制限に対処し、より表現力のあるテキスト表現がそれを緩和できる範囲について検討する。
提案する6つのベンチマークのうち2つに新たな技術の現状を報告し,未知のパターンに対する一般化能力を強く改善する。
論文 参考訳(メタデータ) (2022-10-11T17:46:28Z) - Document-Level Relation Extraction with Sentences Importance Estimation
and Focusing [52.069206266557266]
文書レベルの関係抽出(DocRE)は、複数の文の文書から2つのエンティティ間の関係を決定することを目的としている。
我々はDocREのための文重要度スコアと文集中損失を設計するSIEF(Sentence Estimation and Focusing)フレームワークを提案する。
2つのドメインの実験結果から、SIEFは全体的なパフォーマンスを改善するだけでなく、DocREモデルをより堅牢にします。
論文 参考訳(メタデータ) (2022-04-27T03:20:07Z) - CABACE: Injecting Character Sequence Information and Domain Knowledge
for Enhanced Acronym and Long-Form Extraction [0.0]
本稿では,ACronym extract のための CABACE: Character-Aware BERT を提案する。
テキスト中の文字列を考慮に入れ、マスキング言語モデリングによって科学的および法的領域に適応する。
提案手法は,ノンイングリッシュ言語へのゼロショット一般化のためのベースラインモデルよりも適していることを示す。
論文 参考訳(メタデータ) (2021-12-25T14:03:09Z) - Transformer-Based Approach for Joint Handwriting and Named Entity
Recognition in Historical documents [1.7491858164568674]
本研究は,手書き文書における名前付きエンティティ認識にトランスフォーマネットワークを採用した最初のアプローチを示す。
我々は,Esposalles データベースを用いた ICDAR 2017 Information extract コンペティションにおいて,新しい最先端性能を実現する。
論文 参考訳(メタデータ) (2021-12-08T09:26:21Z) - Knowledge-Aware Procedural Text Understanding with Multi-Stage Training [110.93934567725826]
本稿では,このような文書の理解とプロセス中のエンティティの状態や場所の追跡を目的とした手続き的テキスト理解の課題に焦点をあてる。
常識的推論の難しさとデータ不足という2つの課題はまだ未解決のままである。
我々は、複数の外部知識を効果的に活用する、KnOwledge-Aware ProceduraL text understAnding (KOALA)モデルを提案する。
論文 参考訳(メタデータ) (2020-09-28T10:28:40Z) - Probing Linguistic Features of Sentence-Level Representations in Neural
Relation Extraction [80.38130122127882]
ニューラルリレーション抽出(RE)に関連する言語特性を対象とした14の探索タスクを導入する。
私たちは、40以上の異なるエンコーダアーキテクチャと2つのデータセットでトレーニングされた言語的特徴の組み合わせによって学習された表現を研究するためにそれらを使用します。
アーキテクチャによって引き起こされるバイアスと言語的特徴の含意は、探索タスクのパフォーマンスにおいて明らかに表現されている。
論文 参考訳(メタデータ) (2020-04-17T09:17:40Z) - Structured Domain Adaptation with Online Relation Regularization for
Unsupervised Person Re-ID [62.90727103061876]
Unsupervised Domain adapt(UDA)は、ラベル付きソースドメインデータセットでトレーニングされたモデルを、ラベルなしのターゲットドメインデータセットに適応させることを目的としている。
本稿では,オンライン関係整合性正規化項を用いたエンドツーエンドなドメイン適応フレームワークを提案する。
提案手法は,複数のUDAタスクにおける人物再IDの最先端性能を実現することを目的としている。
論文 参考訳(メタデータ) (2020-03-14T14:45:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。