論文の概要: E-NER -- An Annotated Named Entity Recognition Corpus of Legal Text
- arxiv url: http://arxiv.org/abs/2212.09306v1
- Date: Mon, 19 Dec 2022 09:03:32 GMT
- ステータス: 処理完了
- システム内更新日: 2022-12-20 16:38:48.963680
- Title: E-NER -- An Annotated Named Entity Recognition Corpus of Legal Text
- Title(参考訳): E-NER -- 法文のアノテーション付きエンティティ認識コーパス
- Authors: Ting Wai Terence Au, Ingemar J. Cox, Vasileios Lampos
- Abstract要約: 我々は、米国証券取引委員会(SEC)のEDGARデータセットから入手可能な法律事務所の申請に基づいて、E-NERと呼ばれる公開可能な法的NERデータセットについて説明する。
一般的な英語コーパスであるCoNLL-2003コーパス上で,多数の異なるNERアルゴリズムを訓練した。
- 参考スコア(独自算出の注目度): 1.6221439565760059
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Identifying named entities such as a person, location or organization, in
documents can highlight key information to readers. Training Named Entity
Recognition (NER) models requires an annotated data set, which can be a
time-consuming labour-intensive task. Nevertheless, there are publicly
available NER data sets for general English. Recently there has been interest
in developing NER for legal text. However, prior work and experimental results
reported here indicate that there is a significant degradation in performance
when NER methods trained on a general English data set are applied to legal
text. We describe a publicly available legal NER data set, called E-NER, based
on legal company filings available from the US Securities and Exchange
Commission's EDGAR data set. Training a number of different NER algorithms on
the general English CoNLL-2003 corpus but testing on our test collection
confirmed significant degradations in accuracy, as measured by the F1-score, of
between 29.4\% and 60.4\%, compared to training and testing on the E-NER
collection.
- Abstract(参考訳): 人、場所、組織などの名前付きエンティティを文書で識別することは、読者に重要な情報を強調することができる。
名前付きエンティティ認識(NER)モデルのトレーニングにはアノテーション付きデータセットが必要である。
それでも、一般英語用のNERデータセットが公開されている。
近年、法律文書のNER開発への関心が高まっている。
しかし,本論文の先行研究および実験結果から,一般的な英語データセットで訓練されたNER法を法的テキストに適用した場合,性能が著しく低下することが示唆された。
我々は、米国証券取引委員会(SEC)のEDGARデータセットから入手可能な法律事務所の申請に基づいて、E-NERと呼ばれる公開可能な法的NERデータセットについて説明する。
一般的な英語コーパス(CoNLL-2003コーパス)で多数の異なるNERアルゴリズムをトレーニングしたが,F1スコア(29.4\%~60.4\%)で測定されたテストコレクションでは,E-NERコレクションのトレーニングやテストと比較して,精度が著しく低下することが確認された。
関連論文リスト
- Annotation Errors and NER: A Study with OntoNotes 5.0 [2.8544822698499255]
英語NERのためのOntoNotes 5.0コーパスにおいて,アノテーションエラーを検出するための3つの簡単な手法を用いる。
提案手法は, 列車/デブ/テストデータ中の文の10%を補正した。
3つのNERライブラリを使用して、オリジナルのデータセットと再注釈付きデータセットでトレーニングされたモデルをトレーニング、評価、比較しました。
論文 参考訳(メタデータ) (2024-06-27T13:48:46Z) - LexMatcher: Dictionary-centric Data Collection for LLM-based Machine Translation [67.24113079928668]
本稿では、バイリンガル辞書に見られる感覚のカバレッジによって駆動されるデータキュレーション手法であるLexMatcherを提案する。
我々の手法は、WMT2022テストセットの確立されたベースラインよりも優れています。
論文 参考訳(メタデータ) (2024-06-03T15:30:36Z) - Named Entity Recognition via Machine Reading Comprehension: A Multi-Task
Learning Approach [50.12455129619845]
Named Entity Recognition (NER) は、テキスト内のエンティティの参照を事前に定義された型に抽出し、分類することを目的としている。
我々は,MRCベースのNERを改善するために,エンティティタイプ間のラベル依存性をマルチタスク学習フレームワークに組み込むことを提案する。
論文 参考訳(メタデータ) (2023-09-20T03:15:05Z) - Disambiguation of Company names via Deep Recurrent Networks [101.90357454833845]
企業名文字列の埋め込みである教師付き学習を通じて,Siamese LSTM Network を抽出する手法を提案する。
私たちは、ラベル付けされるサンプルを優先するActive Learningアプローチが、より効率的な全体的な学習パイプラインをもたらす方法を分析します。
論文 参考訳(メタデータ) (2023-03-07T15:07:57Z) - T-NER: An All-Round Python Library for Transformer-based Named Entity
Recognition [9.928025283928282]
T-NERは、NER LMファインタニング用のPythonライブラリである。
9つのパブリックなNERデータセットを統一されたフォーマットにコンパイルすることで、ライブラリの可能性を示す。
将来の研究を容易にするため、Hugging Faceモデルハブを通じてLMチェックポイントをすべてリリースしています。
論文 参考訳(メタデータ) (2022-09-09T15:00:38Z) - Nested Named Entity Recognition as Holistic Structure Parsing [92.8397338250383]
本研究は,文中の全入れ子NEを全体構造としてモデル化し,全体構造解析アルゴリズムを提案する。
実験により、我々のモデルは、最先端にアプローチしたり、あるいは達成したりするような、広く使われているベンチマークで有望な結果が得られることが示された。
論文 参考訳(メタデータ) (2022-04-17T12:48:20Z) - MINER: Improving Out-of-Vocabulary Named Entity Recognition from an
Information Theoretic Perspective [57.19660234992812]
NERモデルは標準のNERベンチマークで有望な性能を達成した。
近年の研究では、従来のアプローチはエンティティ参照情報に過度に依存し、OoV(out-of-vocabulary)エンティティ認識の性能が劣っていることが示されている。
我々は、情報理論の観点からこの問題を改善するための新しいNER学習フレームワークであるMINERを提案する。
論文 参考訳(メタデータ) (2022-04-09T05:18:20Z) - Benchmarking Modern Named Entity Recognition Techniques for Free-text
Health Record De-identification [6.026640792312181]
連邦法は、保護された健康情報(PHI)を含むEHRデータの共有を制限する。
本研究は, 深層学習に基づく名前付きエンティティ認識(NER)手法を探索し, 識別タスクにおいてどのメソッドがより優れているかを判定する。
i2b2トレーニングデータセットでモデルをトレーニング,テストし,地域病院から収集したEHRデータを用いて,そのパフォーマンスを質的に評価した。
論文 参考訳(メタデータ) (2021-03-25T01:26:58Z) - Named Entity Recognition in the Legal Domain using a Pointer Generator
Network [0.0]
我々は, 訴訟のPDFファイルからノイズテキストを抽出し, 法的NERの問題点を米国裁判所から調査した。
テキスト内のエンティティの正確な位置は不明で、エンティティはタイプミスやOCRミスを含む可能性がある。
nerタスクをテキストからテキストへのシーケンス生成タスクとして定式化し、ポインタ生成ネットワークを訓練して文書内のエンティティを生成する。
論文 参考訳(メタデータ) (2020-12-17T21:10:34Z) - Global Attention for Name Tagging [56.62059996864408]
ローカル、文書レベル、コーパスレベルのコンテキスト情報を活用することで、名前タグを改善するための新しいフレームワークを提案する。
本研究では,グローバルな注意を介し,文書レベルのコンテキスト情報とコーパスレベルのコンテキスト情報と,局所的なコンテキスト情報とを組み込むことを学習するモデルを提案する。
ベンチマークデータセットの実験は、我々のアプローチの有効性を示している。
論文 参考訳(メタデータ) (2020-10-19T07:27:15Z) - Exploring Cross-sentence Contexts for Named Entity Recognition with BERT [1.4998865865537996]
本稿では, BERT モデルを用いた NER におけるクロス文情報の利用を5言語で検討する。
BERT入力に追加文の形でコンテキストを追加することで、テスト対象言語やモデル上でのNER性能が向上することがわかった。
そこで本稿では,文の様々な予測を組み合わせ,さらにNER性能を向上させるための簡単な手法であるCMV(Contextual Majority Voting)を提案する。
論文 参考訳(メタデータ) (2020-06-02T12:34:52Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。