論文の概要: FiNER: Financial Named Entity Recognition Dataset and Weak-Supervision
Model
- arxiv url: http://arxiv.org/abs/2302.11157v1
- Date: Wed, 22 Feb 2023 05:41:27 GMT
- ステータス: 処理完了
- システム内更新日: 2023-02-23 16:17:34.020458
- Title: FiNER: Financial Named Entity Recognition Dataset and Weak-Supervision
Model
- Title(参考訳): FiNER:ファイナンシャルネーム付きエンティティ認識データセットと弱スーパービジョンモデル
- Authors: Agam Shah, Ruchit Vithani, Abhinav Gullapalli, Sudheer Chava
- Abstract要約: ファイナンスドメインは、名前付き認識(NER)タスクに固有の課題を提示します。
ファイナンスドメインのための最初の高品質なNERデータセットを開発する。
現在の弱いスーパービジョンフレームワークを拡張して、スパンレベルの分類に使用できるようにします。
- 参考スコア(独自算出の注目度): 1.7205106391379026
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The development of annotated datasets over the 21st century has helped us
truly realize the power of deep learning. Most of the datasets created for the
named-entity-recognition (NER) task are not domain specific. Finance domain
presents specific challenges to the NER task and a domain specific dataset
would help push the boundaries of finance research. In our work, we develop the
first high-quality NER dataset for the finance domain. To set the benchmark for
the dataset, we develop and test a weak-supervision-based framework for the NER
task. We extend the current weak-supervision framework to make it employable
for span-level classification. Our weak-ner framework and the dataset are
publicly available on GitHub and Hugging Face.
- Abstract(参考訳): 21世紀の注釈付きデータセットの開発は、ディープラーニングのパワーを真に実現するのに役立ちました。
名前付き認識(NER)タスクのために作成されたデータセットのほとんどはドメイン固有ではない。
ファイナンス ドメインはnerタスクに特定の課題を示し、ドメイン固有のデータセットはファイナンス研究の境界を押し上げるのに役立つでしょう。
そこで本研究では,金融分野を対象とした高品質なNERデータセットを開発した。
データセットのベンチマークを設定するために、NERタスクのための弱いスーパービジョンベースのフレームワークを開発し、テストする。
現在の弱いスーパービジョンフレームワークを拡張して、スパンレベルの分類に使用できるようにします。
私たちの弱いフレームワークとデータセットはgithubで公開されています。
関連論文リスト
- On Responsible Machine Learning Datasets with Fairness, Privacy, and
Regulatory Norms [58.93352076927003]
AI技術の信頼性に関する深刻な懸念があった。
機械学習とディープラーニングのアルゴリズムは、開発に使用されるデータに大きく依存する。
本稿では,責任あるルーブリックを用いてデータセットを評価するフレームワークを提案する。
論文 参考訳(メタデータ) (2023-10-24T14:01:53Z) - NERetrieve: Dataset for Next Generation Named Entity Recognition and
Retrieval [49.827932299460514]
我々は、大きな言語モデルによって提供される能力は、NER研究の終わりではなく、むしろエキサイティングな始まりであると主張する。
我々は、NERタスクの3つの変種と、それらをサポートするデータセットを示す。
500のエンティティタイプをカバーする400万段落の,大規模で銀の注釈付きコーパスを提供する。
論文 参考訳(メタデータ) (2023-10-22T12:23:00Z) - REFinD: Relation Extraction Financial Dataset [7.207699035400335]
提案するREFinDは,$sim$29Kのインスタンスと8種類のエンティティペア間の22のリレーションを持つ,最初の大規模アノテートされた関係データセットである。
様々な最先端ディープラーニングモデルが,数値推論,関係性,方向性のあいまいさに悩まされていることを観察した。
論文 参考訳(メタデータ) (2023-05-22T22:40:11Z) - Dynamic Named Entity Recognition [5.9401550252715865]
動的名前付きエンティティ認識(DNER)という新しいタスクを紹介します。
DNERは、コンテキストを利用してエンティティを抽出するアルゴリズムの能力を評価するためのフレームワークを提供する。
本稿では,本課題に関連する課題と研究軸を反映したベースラインモデルと実験結果について述べる。
論文 参考訳(メタデータ) (2023-02-16T15:50:02Z) - DataPerf: Benchmarks for Data-Centric AI Development [81.03754002516862]
DataPerfは、MLデータセットとデータ中心アルゴリズムを評価するための、コミュニティ主導のベンチマークスイートである。
私たちは、この反復的な開発をサポートするために、複数の課題を抱えたオープンなオンラインプラットフォームを提供しています。
ベンチマーク、オンライン評価プラットフォーム、ベースライン実装はオープンソースである。
論文 参考訳(メタデータ) (2022-07-20T17:47:54Z) - Simple Questions Generate Named Entity Recognition Datasets [18.743889213075274]
この研究は、単純な自然言語の質問によってNERデータセットを自動的に生成する、要求対生成のアプローチを導入している。
我々のモデルは、4つの異なる領域にわたる6つのNERベンチマークにおいて、以前の弱い教師付きモデルよりも大幅に優れています。
自然言語でNERのニーズを定式化することで、アワードのようなきめ細かいエンティティタイプのためのNERモデルを構築することもできます。
論文 参考訳(メタデータ) (2021-12-16T11:44:38Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z) - Zero-Resource Cross-Domain Named Entity Recognition [68.83177074227598]
既存のドメイン名付きエンティティ認識モデルは、多くのラベルなしコーパスや、ターゲットドメイン内のラベル付きNERトレーニングデータに依存している。
外部リソースを一切使用しないドメイン間NERモデルを提案する。
論文 参考訳(メタデータ) (2020-02-14T09:04:18Z) - DeGAN : Data-Enriching GAN for Retrieving Representative Samples from a
Trained Classifier [58.979104709647295]
我々は、トレーニングされたネットワークの将来の学習タスクのために、利用可能なデータの豊富さと関連するデータの欠如の間のギャップを埋める。
利用可能なデータは、元のトレーニングデータセットまたは関連するドメインデータセットの不均衡なサブセットである可能性があるため、代表サンプルを検索するために使用します。
関連ドメインからのデータを活用して最先端のパフォーマンスを実現することを実証する。
論文 参考訳(メタデータ) (2019-12-27T02:05:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。