論文の概要: FiNER-ORD: Financial Named Entity Recognition Open Research Dataset
- arxiv url: http://arxiv.org/abs/2302.11157v2
- Date: Fri, 6 Sep 2024 19:30:26 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-11 06:18:42.483046
- Title: FiNER-ORD: Financial Named Entity Recognition Open Research Dataset
- Title(参考訳): FiNER-ORD:ファイナンシャルネーム付きエンティティ認識オープンリサーチデータセット
- Authors: Agam Shah, Abhinav Gullapalli, Ruchit Vithani, Michael Galarnyk, Sudheer Chava,
- Abstract要約: 英国初の高品質金融NERオープンリサーチデータセット(FiNER-ORD)を開発した。
我々は、FiNER-ORD上で、複数の事前学習言語モデル(PLM)と大規模言語モデル(LLM)をベンチマークする。
データセット、モデル、コードはGitHubとHugging FaceでCC BY-NC 4.0ライセンス下で公開されている。
- 参考スコア(独自算出の注目度): 4.637027109495763
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Over the last two decades, the development of the CoNLL-2003 named entity recognition (NER) dataset has helped enhance the capabilities of deep learning and natural language processing (NLP). The finance domain, characterized by its unique semantic and lexical variations for the same entities, presents specific challenges to the NER task; thus, a domain-specific customized dataset is crucial for advancing research in this field. In our work, we develop the first high-quality English Financial NER Open Research Dataset (FiNER-ORD). We benchmark multiple pre-trained language models (PLMs) and large-language models (LLMs) on FiNER-ORD. We believe our proposed FiNER-ORD dataset will open future opportunities to use FiNER-ORD as a benchmark for financial domain-specific NER and NLP tasks. Our dataset, models, and code are publicly available on GitHub and Hugging Face under CC BY-NC 4.0 license.
- Abstract(参考訳): 過去20年間で、CoNLL-2003という名前のエンティティ認識(NER)データセットが開発され、ディープラーニングと自然言語処理(NLP)の能力が向上した。
金融ドメインは、同一エンティティのユニークな意味的および語彙的バリエーションを特徴とし、NERタスクに固有の課題を提示する。
本研究は、イギリス初の高品質な金融NERオープンリサーチデータセット(FiNER-ORD)を開発する。
我々は、FiNER-ORD上で、複数の事前学習言語モデル(PLM)と大規模言語モデル(LLM)をベンチマークする。
提案したFiNER-ORDデータセットは、金融ドメイン固有のNERおよびNLPタスクのベンチマークとしてFiNER-ORDを使用する将来の機会を開くだろう。
データセット、モデル、コードはGitHubとHugging FaceでCC BY-NC 4.0ライセンス下で公開されている。
関連論文リスト
- Insights from the Use of Previously Unseen Neural Architecture Search Datasets [6.239015118429603]
我々は、一連のNASチャレンジのために作成された8つの新しいデータセットを示す:AddNIST、Language、MultNIST、CIFARTile、Gutenberg、Isabella、GeoClassing、Chesseract。
これらのデータセットと課題は、NAS開発における問題に注意を向け、開発時に未知のデータセット上でモデルがどのように機能するかを著者に検討するよう促すために開発されている。
論文 参考訳(メタデータ) (2024-04-02T16:48:34Z) - On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - REFinD: Relation Extraction Financial Dataset [7.207699035400335]
提案するREFinDは,$sim$29Kのインスタンスと8種類のエンティティペア間の22のリレーションを持つ,最初の大規模アノテートされた関係データセットである。
様々な最先端ディープラーニングモデルが,数値推論,関係性,方向性のあいまいさに悩まされていることを観察した。
論文 参考訳(メタデータ) (2023-05-22T22:40:11Z) - Dynamic Named Entity Recognition [5.9401550252715865]
動的名前付きエンティティ認識(DNER)という新しいタスクを紹介します。
DNERは、コンテキストを利用してエンティティを抽出するアルゴリズムの能力を評価するためのフレームワークを提供する。
本稿では,本課題に関連する課題と研究軸を反映したベースラインモデルと実験結果について述べる。
論文 参考訳(メタデータ) (2023-02-16T15:50:02Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Simple Questions Generate Named Entity Recognition Datasets [18.743889213075274]
この研究は、単純な自然言語の質問によってNERデータセットを自動的に生成する、要求対生成のアプローチを導入している。
我々のモデルは、4つの異なる領域にわたる6つのNERベンチマークにおいて、以前の弱い教師付きモデルよりも大幅に優れています。
自然言語でNERのニーズを定式化することで、アワードのようなきめ細かいエンティティタイプのためのNERモデルを構築することもできます。
論文 参考訳(メタデータ) (2021-12-16T11:44:38Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。