論文の概要: CO-Fun: A German Dataset on Company Outsourcing in Fund Prospectuses for Named Entity Recognition and Relation Extraction
- arxiv url: http://arxiv.org/abs/2403.15322v1
- Date: Fri, 22 Mar 2024 16:17:55 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-25 16:40:19.801506
- Title: CO-Fun: A German Dataset on Company Outsourcing in Fund Prospectuses for Named Entity Recognition and Relation Extraction
- Title(参考訳): CO-Fun: 名前付きエンティティ認識と関係抽出のための資金提供におけるアウトソーシングに関するドイツのデータセット
- Authors: Neda Foroutan, Markus Schröder, Andreas Dengel,
- Abstract要約: 名前付きエンティティ認識と関係抽出に特化して設計されたデータセットを提案する。
948文のラベル付けは3人の専門家によって行われた。
深層学習モデルは、実体を認識し、関係を抽出するために訓練された。
データセットの匿名化バージョンと、モデルトレーニングに使用されるガイドラインとコードは、https://www.dfki.uni-kl.de/cybermapping/data/CO-Fun-1.0-anonymized.zipで公開されている。
- 参考スコア(独自算出の注目度): 5.143097874851516
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The process of cyber mapping gives insights in relationships among financial entities and service providers. Centered around the outsourcing practices of companies within fund prospectuses in Germany, we introduce a dataset specifically designed for named entity recognition and relation extraction tasks. The labeling process on 948 sentences was carried out by three experts which yields to 5,969 annotations for four entity types (Outsourcing, Company, Location and Software) and 4,102 relation annotations (Outsourcing-Company, Company-Location). State-of-the-art deep learning models were trained to recognize entities and extract relations showing first promising results. An anonymized version of the dataset, along with guidelines and the code used for model training, are publicly available at https://www.dfki.uni-kl.de/cybermapping/data/CO-Fun-1.0-anonymized.zip.
- Abstract(参考訳): サイバーマッピングのプロセスは、金融機関とサービス提供者の間の関係を洞察する。
ドイツにおけるファンド・プロポース内の企業のアウトソーシングの実践を中心に、名前付きエンティティ認識と関係抽出タスクに特化したデータセットを導入する。
948文のラベル付け処理は,4つのエンティティタイプ(アウトソーシング,企業,場所,ソフトウェア)に対して5,969のアノテーション,4,102の関連アノテーション(アウトソーシング,企業-ロケーション)の3つの専門家によって実施された。
最先端のディープラーニングモデルは、エンティティを認識し、最初の有望な結果を示す関係を抽出するために訓練された。
データセットの匿名化バージョンと、モデルトレーニングに使用されるガイドラインとコードは、https://www.dfki.uni-kl.de/cybermapping/data/CO-Fun-1.0-anonymized.zipで公開されている。
関連論文リスト
- JEL: Applying End-to-End Neural Entity Linking in JPMorgan Chase [3.4311229392863467]
本稿では、最小限のコンテキスト情報とマージン損失を利用してエンティティ埋め込みを生成する、新しいエンドツーエンドニューラルネットワークリンクモデル(JEL)を提案する。
我々は、JELが金融ニュースの企業名と知識グラフのエンティティをリンクすることで、最先端のパフォーマンスを実現していることを示す。
論文 参考訳(メタデータ) (2024-11-05T00:46:25Z) - Entity6K: A Large Open-Domain Evaluation Dataset for Real-World Entity Recognition [100.39728263079736]
実世界のエンティティ認識のための包括的なデータセットであるEntity6Kを紹介する。
26のカテゴリに5700のエンティティがあり、それぞれがアノテーション付きの5つの人間認証イメージによってサポートされている。
論文 参考訳(メタデータ) (2024-03-19T01:07:53Z) - Information Extraction: An application to the domain of hyper-local financial data on developing countries [0.0]
この問題に対処する2つの自然言語処理技術(NLP)を開発し評価する。
まず、発展途上国の財務テキストデータのドメインに特有のカスタムデータセットをキュレートする。
次に,変換器をベースとしたT5モデルを用いてテキストからテキストへのアプローチを探索し,NERと関係抽出を同時に行うことを目的とする。
論文 参考訳(メタデータ) (2024-03-14T03:49:36Z) - Learning to Extract Structured Entities Using Language Models [52.281701191329]
機械学習の最近の進歩は、情報抽出の分野に大きな影響を与えている。
タスクをエンティティ中心にすることで、さまざまなメトリクスの使用を可能にします。
我々は、Structured Entity extractを導入し、Adroximate Entity Set OverlaPメトリックを提案し、この分野にコントリビュートします。
論文 参考訳(メタデータ) (2024-02-06T22:15:09Z) - Capture the Flag: Uncovering Data Insights with Large Language Models [90.47038584812925]
本研究では,Large Language Models (LLMs) を用いてデータの洞察の発見を自動化する可能性について検討する。
そこで本稿では,データセット内の意味的かつ関連する情報(フラグ)を識別する能力を測定するために,フラグを捕捉する原理に基づく新しい評価手法を提案する。
論文 参考訳(メタデータ) (2023-12-21T14:20:06Z) - Named entity recognition using GPT for identifying comparable companies [0.0]
我々は,OpenAIのGPTのような大規模言語モデル(LLM)を用いることで,標準的なエンティティ認識(NER)手法よりも精度と成功率が高いことを示す。
定量的に高い精度を実証し、質的に言えば、適切な競合する企業同士のピアグループを作るのに使用できることを示す。
論文 参考訳(メタデータ) (2023-07-11T16:48:16Z) - Modeling Entities as Semantic Points for Visual Information Extraction
in the Wild [55.91783742370978]
文書画像から鍵情報を正確かつ堅牢に抽出する手法を提案する。
我々は、エンティティを意味的ポイントとして明示的にモデル化する。つまり、エンティティの中心点は、異なるエンティティの属性と関係を記述する意味情報によって豊かになる。
提案手法は,従来の最先端モデルと比較して,エンティティラベルとリンクの性能を著しく向上させることができる。
論文 参考訳(メタデータ) (2023-03-23T08:21:16Z) - KPI-BERT: A Joint Named Entity Recognition and Relation Extraction Model
for Financial Reports [1.7575422764391646]
変換器からの双方向表現(BERT)に基づくエンドツーエンドのトレーニング可能なアーキテクチャを提案する。
BERTは、リカレントニューラルネットワーク(RNN)と条件付きラベルマスクを組み合わせることで、関係を分類する前にエンティティをシーケンシャルにタグ付けする。
我々は、ドイツ財務報告の新しい実践的データセットにおいて、かなり高い予測性能を達成し、いくつかの強力なベースラインを上回ります。
論文 参考訳(メタデータ) (2022-08-03T15:21:28Z) - MobIE: A German Dataset for Named Entity Recognition, Entity Linking and
Relation Extraction in the Mobility Domain [76.21775236904185]
データセットは3,232のソーシャルメディアテキストと91Kトークンによるトラフィックレポートで構成され、20.5Kアノテーション付きエンティティを含んでいる。
データセットのサブセットには,7つのモビリティ関連,n-ary関係型がアノテートされている。
私たちの知る限りでは、NER、EL、REのアノテーションを組み合わせた最初のドイツ語データセットです。
論文 参考訳(メタデータ) (2021-08-16T08:21:50Z) - Extracting Semantics from Maintenance Records [0.2578242050187029]
保守記録から名前付きエンティティ認識を抽出する3つの手法を開発した。
我々は、構文規則と意味に基づくアプローチと、事前学習された言語モデルを活用するアプローチを開発する。
実世界の航空整備記録データを用いた評価の結果,有望な結果が得られた。
論文 参考訳(メタデータ) (2021-08-11T21:23:10Z) - Entity-Switched Datasets: An Approach to Auditing the In-Domain
Robustness of Named Entity Recognition Models [49.878051587667244]
そこで本稿では,エンティティの国家的起源によるパフォーマンスの違いに着目し,システムのドメイン内ロバスト性を評価する手法を提案する。
我々は、エンティティに切り替えたデータセットを作成し、元のテキストにある名前のエンティティを、同じタイプの、異なる国家起源の、もっともらしい名前のエンティティに置き換える。
同じ文脈では、ある起源のエンティティは、他の領域のエンティティよりも確実に認識される。
論文 参考訳(メタデータ) (2020-04-08T17:11:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。