論文の概要: FiNER: Financial Numeric Entity Recognition for XBRL Tagging
- arxiv url: http://arxiv.org/abs/2203.06482v1
- Date: Sat, 12 Mar 2022 16:43:57 GMT
- ステータス: 処理完了
- システム内更新日: 2022-03-19 20:03:03.757115
- Title: FiNER: Financial Numeric Entity Recognition for XBRL Tagging
- Title(参考訳): FiNER:XBRLタグのための金融数値エンティティ認識
- Authors: Lefteris Loukas, Manos Fergadiotis, Ilias Chalkidis, Eirini
Spyropoulou, Prodromos Malakasiotis, Ion Androutsopoulos, Georgios Paliouras
- Abstract要約: 金融ドメインのための新しいエンティティ抽出タスクとしてタグを導入します。
我々は、金のタグ付き1.1M文のデータセットであるFiNER-139をリリースする。
数値表現のサブワード断片化はBERTの性能を損なうことを示す。
- 参考スコア(独自算出の注目度): 29.99876910165977
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Publicly traded companies are required to submit periodic reports with
eXtensive Business Reporting Language (XBRL) word-level tags. Manually tagging
the reports is tedious and costly. We, therefore, introduce XBRL tagging as a
new entity extraction task for the financial domain and release FiNER-139, a
dataset of 1.1M sentences with gold XBRL tags. Unlike typical entity extraction
datasets, FiNER-139 uses a much larger label set of 139 entity types. Most
annotated tokens are numeric, with the correct tag per token depending mostly
on context, rather than the token itself. We show that subword fragmentation of
numeric expressions harms BERT's performance, allowing word-level BILSTMs to
perform better. To improve BERT's performance, we propose two simple and
effective solutions that replace numeric expressions with pseudo-tokens
reflecting original token shapes and numeric magnitudes. We also experiment
with FIN-BERT, an existing BERT model for the financial domain, and release our
own BERT (SEC-BERT), pre-trained on financial filings, which performs best.
Through data and error analysis, we finally identify possible limitations to
inspire future work on XBRL tagging.
- Abstract(参考訳): 上場企業は、eXtensive Business Reporting Language (XBRL)ワードレベルのタグで定期的なレポートを提出する必要がある。
手動でレポートをタグ付けするのは面倒で費用がかかる。
そこで、金融ドメインのための新しいエンティティ抽出タスクとしてXBRLタグを導入し、金のXBRLタグ付き1.1M文のデータセットであるFiNER-139をリリースする。
典型的なエンティティ抽出データセットとは異なり、FiNER-139は139個のエンティティタイプのラベルセットを使用する。
ほとんどのアノテーション付きトークンは数値であり、トークンごとの正しいタグは、トークン自体よりもコンテキストによって異なる。
数値表現のサブワード断片化はBERTの性能に悪影響を及ぼし,単語レベルのBILSTMの性能が向上することを示す。
BERTの性能を向上させるために,数値式を元のトークン形状と数値等級を反映した擬似トークンに置き換える,単純で効果的な2つの方法を提案する。
また、ファイナンシャルドメイン用の既存のBERTモデルであるFIN-BERTを実験し、ファイナンシャルファイリングに基づいて事前トレーニングされた独自のBERT(SEC-BERT)をリリースする。
データとエラー解析を通じて、XBRLタグ付けの今後の作業を促す可能性のある制限を最終的に特定する。
関連論文リスト
- Parameter-Efficient Instruction Tuning of Large Language Models For Extreme Financial Numeral Labelling [29.84946857859386]
本稿では,財務文書に発生する関連する数字を対応するタグで自動的に注釈付けする問題について検討する。
本稿では,LoRAを用いたタスクに対するパラメータ効率のよい解を提案する。
提案するモデルであるFLAN-FinXCは、両方のデータセット上で新しい最先端のパフォーマンスを実現する。
論文 参考訳(メタデータ) (2024-05-03T16:41:36Z) - Financial Numeric Extreme Labelling: A Dataset and Benchmarking for XBRL
Tagging [23.01422165679548]
米国証券取引委員会(SEC)は、すべての公社に対し、分類学の特定のラベルの数字を含むべき定期的な財務声明を提出するよう命令している。
非常に大きなラベル集合から文中の特定の数字スパンに対するラベルのタスクを定式化するタスクを定式化する。
論文 参考訳(メタデータ) (2023-06-06T14:41:30Z) - GPT-NER: Named Entity Recognition via Large Language Models [58.609582116612934]
GPT-NERはシーケンスラベリングタスクを言語モデルで容易に適用可能な生成タスクに変換する。
GPT-NERは、トレーニングデータの量が極めて少ない場合、低リソースかつ少数ショットのセットアップにおいて、より優れた能力を示す。
これは、ラベル付きサンプルの数が限られている実世界のNERアプリケーションにおけるGPT-NERの機能を示す。
論文 参考訳(メタデータ) (2023-04-20T16:17:26Z) - German BERT Model for Legal Named Entity Recognition [0.43461794560295636]
法定エンティティ認識(LER)データセット上で、ドイツのデータ(BERT)に基づいてトレーニングされた人気のあるBERT言語モデルを微調整する。
LERデータセット上のゲルマンBERTを微調整することで、同じLERデータセットの著者が使用するBiLSTM-CRF+モデルより優れた結果が得られる。
論文 参考訳(メタデータ) (2023-03-07T11:54:39Z) - FinBERT-MRC: financial named entity recognition using BERT under the
machine reading comprehension paradigm [8.17576814961648]
我々はFinNERタスクを機械読解(MRC)問題として定式化し、FinBERT-MRCと呼ばれる新しいモデルを提案する。
この定式化は、よく設計されたクエリを利用して重要な事前情報を導入し、ターゲットエンティティの開始インデックスと終了インデックスを抽出する。
我々は,中国の財務データセットChFinAnnと実単語データセットAdminPunishについて実験を行った。
論文 参考訳(メタデータ) (2022-05-31T00:44:57Z) - MarkBERT: Marking Word Boundaries Improves Chinese BERT [67.53732128091747]
MarkBERTは、語彙を漢字として保持し、連続した単語間の境界マーカーを挿入する。
従来の単語ベースのBERTモデルと比較して、MarkBERTはテキスト分類、キーワード認識、意味的類似性タスクにおいて精度が向上している。
論文 参考訳(メタデータ) (2022-03-12T08:43:06Z) - Pretraining without Wordpieces: Learning Over a Vocabulary of Millions
of Words [50.11559460111882]
本稿では,単語ではなく単語の語彙上で,BERTスタイルの事前学習モデルを開発する可能性について検討する。
その結果,標準的なワードピースベースのBERTと比較して,WordBERTはクローゼテストや機械読解の大幅な改善を実現していることがわかった。
パイプラインは言語に依存しないので、中国語でWordBERTを訓練し、5つの自然言語理解データセットで大きな利益を得る。
論文 参考訳(メタデータ) (2022-02-24T15:15:48Z) - Lex-BERT: Enhancing BERT based NER with lexicons [1.6884834576352221]
Lex-BERTは、名前付きエンティティ認識タスクのために、中国語のBERTに辞書情報を組み込むものです。
我々のモデルは新しいパラメータを導入せず、FLATよりも効率的です。
論文 参考訳(メタデータ) (2021-01-02T07:43:21Z) - Incorporating BERT into Parallel Sequence Decoding with Adapters [82.65608966202396]
本稿では,2種類のBERTモデルをエンコーダとデコーダとして取り出し,シンプルで軽量なアダプタモジュールを導入し,それらを微調整する。
我々は、ソース側およびターゲット側BERTモデルに含まれる情報を協調的に活用できるフレキシブルで効率的なモデルを得る。
我々のフレームワークは、BERTの双方向および条件独立性を考慮した、Mask-Predictという並列シーケンス復号アルゴリズムに基づいている。
論文 参考訳(メタデータ) (2020-10-13T03:25:15Z) - Incorporating BERT into Neural Machine Translation [251.54280200353674]
本稿では,入力シーケンスの表現抽出にBERTを用いたBERT融合モデルを提案する。
我々は、教師付き(文レベルと文書レベルの翻訳を含む)、半教師なしおよび教師なしの機械翻訳の実験を行い、7つのベンチマークデータセットで最先端の結果を得る。
論文 参考訳(メタデータ) (2020-02-17T08:13:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。