論文の概要: FinBERT-MRC: financial named entity recognition using BERT under the
machine reading comprehension paradigm
- arxiv url: http://arxiv.org/abs/2205.15485v1
- Date: Tue, 31 May 2022 00:44:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-06-01 13:55:14.579184
- Title: FinBERT-MRC: financial named entity recognition using BERT under the
machine reading comprehension paradigm
- Title(参考訳): FinBERT-MRC:機械読解パラダイム下でのBERTを用いたファイナンシャルエンティティ認識
- Authors: Yuzhe Zhang and Hong Zhang
- Abstract要約: 我々はFinNERタスクを機械読解(MRC)問題として定式化し、FinBERT-MRCと呼ばれる新しいモデルを提案する。
この定式化は、よく設計されたクエリを利用して重要な事前情報を導入し、ターゲットエンティティの開始インデックスと終了インデックスを抽出する。
我々は,中国の財務データセットChFinAnnと実単語データセットAdminPunishについて実験を行った。
- 参考スコア(独自算出の注目度): 8.17576814961648
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Financial named entity recognition (FinNER) from literature is a challenging
task in the field of financial text information extraction, which aims to
extract a large amount of financial knowledge from unstructured texts. It is
widely accepted to use sequence tagging frameworks to implement FinNER tasks.
However, such sequence tagging models cannot fully take advantage of the
semantic information in the texts. Instead, we formulate the FinNER task as a
machine reading comprehension (MRC) problem and propose a new model termed
FinBERT-MRC. This formulation introduces significant prior information by
utilizing well-designed queries, and extracts start index and end index of
target entities without decoding modules such as conditional random fields
(CRF). We conduct experiments on a publicly available Chinese financial dataset
ChFinAnn and a real-word bussiness dataset AdminPunish. FinBERT-MRC model
achieves average F1 scores of 92.78% and 96.80% on the two datasets,
respectively, with average F1 gains +3.94% and +0.89% over some sequence
tagging models including BiLSTM-CRF, BERT-Tagger, and BERT-CRF. The source code
is available at https://github.com/zyz0000/FinBERT-MRC.
- Abstract(参考訳): 文献からのファイナンシャルネームエンティティ認識(FinNER)は、構造化されていないテキストから大量の財務知識を抽出することを目的として、財務テキスト情報抽出の分野で難しい課題である。
FinNERタスクを実装するためにシーケンスタグフレームワークを使用することは広く受け入れられている。
しかし、このようなシーケンスタグ付けモデルは、テキストのセマンティック情報を完全に活用することはできない。
代わりに、FinNERタスクを機械読解(MRC)問題として定式化し、FinBERT-MRCと呼ばれる新しいモデルを提案する。
この定式化は、よく設計されたクエリを利用して重要な事前情報を導入し、条件付きランダムフィールド(CRF)のようなデコードモジュールを使わずに、ターゲットエンティティの開始インデックスと終了インデックスを抽出する。
我々は,中国における公開財務データセットChFinAnnと実単語バスネスデータセットAdminPunishで実験を行った。
FinBERT-MRCモデルは、平均F1スコアが92.78%、96.80%、平均F1スコアが+3.94%、+0.89%である。
ソースコードはhttps://github.com/zyz0000/FinBERT-MRCで入手できる。
関連論文リスト
- DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple
Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。
DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。
複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-23T11:33:41Z) - Conversational Financial Information Retrieval Model (ConFIRM) [3.119127487118468]
本稿では,照会意図の分類と知識ベースラベリングに適した LLM ベースの財務情報検索モデル ConFIRM を提案する。
ConFIRMは,1)ドメイン固有の問合せペアを合成する手法,2)クエリ分類タスクのためのパラメータ効率の良い微調整手法の評価,の2つのモジュールから構成される。
論文 参考訳(メタデータ) (2023-10-06T12:31:05Z) - CFGPT: Chinese Financial Assistant with Large Language Model [21.54229667774752]
CFGPTと命名された中国の金融生成事前学習型トランスフォーマフレームワークを提案する。
CFDataは、事前トレーニングデータセットと教師付き微調整データセットの両方で構成されている。
CFLLMはCFDataで2段階の訓練を受け、事前訓練と微調整を継続する。
論文 参考訳(メタデータ) (2023-09-19T14:34:01Z) - FinGPT: Democratizing Internet-scale Data for Financial Large Language
Models [35.83244096535722]
大型言語モデル (LLM) は、人間に似たテキストの理解と生成に顕著な熟練性を示した。
ファイナンシャル・ジェネレーティブ・プレトレーニング・トランスフォーマー(FinGPT)は、インターネット上の34の多様なソースからリアルタイムの財務データの収集とキュレーションを自動化する。
FinGPTは、FinLLMを民主化し、イノベーションを刺激し、オープンファイナンスにおける新たな機会を開放することを目指している。
論文 参考訳(メタデータ) (2023-07-19T22:43:57Z) - FinGPT: Open-Source Financial Large Language Models [20.49272722890324]
我々は金融セクター向けのオープンソースの大規模言語モデルFinGPTを提案する。
プロプライエタリなモデルとは異なり、FinGPTはデータ中心のアプローチを採用し、研究者や実践者にアクセスしやすく透明なリソースを提供する。
ロボアドバイス,アルゴリズムトレーディング,ローコード開発など,ユーザにとってのステップストーンとして,潜在的な応用例をいくつか紹介する。
論文 参考訳(メタデータ) (2023-06-09T16:52:00Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z) - TAT-QA: A Question Answering Benchmark on a Hybrid of Tabular and
Textual Content in Finance [71.76018597965378]
TAT-QAと呼ばれるタブラデータとテクスチャデータの両方を含む新しい大規模な質問応答データセットを構築します。
本稿では,テーブルとテキストの両方を推論可能な新しいQAモデルであるTAGOPを提案する。
論文 参考訳(メタデータ) (2021-05-17T06:12:06Z) - FinBERT: A Pretrained Language Model for Financial Communications [25.900063840368347]
事前訓練された金融特化言語モデルはありません。
我々は、金融分野固有のBERTモデルであるFinBERTを、大規模な金融通信コーパスを用いて事前訓練することで、ニーズに対処する。
3つの財務感情分類タスクの実験は、一般的なドメインBERTモデルよりもFinBERTの利点を裏付ける。
論文 参考訳(メタデータ) (2020-06-15T02:51:06Z) - GFTE: Graph-based Financial Table Extraction [66.26206038522339]
金融業界や他の多くの分野において、表は構造化されていないデジタルファイル、例えばポータブル文書フォーマット(PDF)や画像でしばしば開示される。
我々はFinTabという中国の標準データセットを公開しています。
今後の比較のためのベースラインとしてGFTEという新しいグラフベースの畳み込みネットワークモデルを提案する。
論文 参考訳(メタデータ) (2020-03-17T07:10:05Z) - Gaussian process imputation of multiple financial series [71.08576457371433]
金融指標、株価、為替レートなどの複数の時系列は、市場が潜んでいる状態に依存しているため、強く結びついている。
金融時系列間の関係を多出力ガウスプロセスでモデル化することで学習することに注力する。
論文 参考訳(メタデータ) (2020-02-11T19:18:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。