論文の概要: Tracing Content Requirements in Financial Documents using Multi-granularity Text Analysis
- arxiv url: http://arxiv.org/abs/2110.14960v2
- Date: Tue, 25 Mar 2025 14:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-26 20:12:57.216561
- Title: Tracing Content Requirements in Financial Documents using Multi-granularity Text Analysis
- Title(参考訳): 多粒性テキスト分析による財務文書の内容の追跡
- Authors: Xiaochen Li, Domenico Bianculli, Lionel C. Briand,
- Abstract要約: 金融文書の完全性(内容的には)は投資資金の基本的要件である。
複数粒度テキスト分析による財務文書のコンテンツ要求をトレースするFITIを提案する。
FITIは、それぞれ0.824、0.646、0.716の平均精度、リコール、F1スコアの正確な識別を提供することができる。
- 参考スコア(独自算出の注目度): 10.684109842514772
- License:
- Abstract: The completeness (in terms of content) of financial documents is a fundamental requirement for investment funds. To ensure completeness, financial regulators have to spend significant time carefully checking every financial document based on relevant content requirements, which prescribe the information types to be included in financial documents (e.g., the description of shares' issue conditions and procedures). However, existing techniques provide limited support to help regulators automatically identify the text chunks related to financial information types, due to the complexity of financial documents. In this paper, we propose FITI to trace content requirements in financial documents with multi-granularity text analysis. Given a new financial document, FITI first selects a set of candidate sentences for efficient information type identification. Then, to rank candidate sentences, FITI uses a combination of rule-based and data-centric approaches, by leveraging information retrieval (IR) and machine learning (ML) techniques that analyze the words, sentences, and contexts related to an information type. Finally, a heuristic-based selector, which considers both the sentence ranking and domain-specific phrases, determines a list of sentences corresponding to each information type. We evaluated FITI by assessing its effectiveness in tracing financial content requirements in 100 real-world financial documents. Experimental results show that FITI is able to provide accurate identification with average precision, recall, and F1-score values of 0.824, 0.646, and 0.716, respectively. The overall accuracy of FITI significantly outperforms the best baseline (based on a transformer language model) by 0.266 in terms of F1-score. Furthermore, FITI can help regulators detect about 80% of missing information types in financial documents
- Abstract(参考訳): 金融文書の完全性(内容的には)は投資資金の基本的要件である。
完全性を確保するため、金融規制当局は、関連コンテンツ要件に基づいてすべての財務書類を慎重にチェックし、金融文書に含まれる情報の種類(株の発行条件や手順の説明など)を規定しなければならない。
しかし、既存の技術は、金融文書の複雑さのため、規制当局が金融情報の種類に関連するテキストチャンクを自動的に識別するのを助けるための限定的なサポートを提供している。
本稿では,マルチグラニュラリティテキスト分析による財務文書のコンテンツ要求をトレースするFITIを提案する。
新しい財務文書が与えられたら、FITIはまず、効率的な情報型識別のための候補文のセットを選択する。
そして、FITIは、情報検索(IR)と機械学習(ML)技術を利用して、情報型に関連する単語、文、コンテキストを分析することによって、ルールベースのアプローチとデータ中心のアプローチの組み合わせをランク付けする。
最後に、文ランキングとドメイン固有のフレーズの両方を考慮したヒューリスティックベースのセレクタが、各情報タイプに対応する文のリストを決定する。
実世界の100の財務文書における財務コンテンツ要求の追跡におけるFITIの有効性を評価することにより、FITIを評価した。
実験結果から,FITIは平均精度,リコール値,F1スコア値それぞれ0.824,0.646,0.716の精度で同定できることがわかった。
FITIの全体的な精度は、F1スコアの点で0.266で最高のベースライン(トランスフォーマー言語モデルに基づく)を上回っている。
さらにFITIは、金融文書に欠落する情報の約80%を規制当局が検出するのに役立つ
関連論文リスト
- Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - DocFinQA: A Long-Context Financial Reasoning Dataset [17.752081303855263]
長期の財務QAタスクを導入します。
平均文脈長をFinQAの700語未満からDocFinQAの123k語に拡張する。
検索に基づくQAパイプラインと長文言語モデルに関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-01-12T22:19:22Z) - Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation [26.573578326262307]
Fin-Factは金融ドメイン内のマルチモーダル事実チェックのためのベンチマークデータセットである。
専門的なファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。
論文 参考訳(メタデータ) (2023-09-15T22:24:00Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - Enabling and Analyzing How to Efficiently Extract Information from
Hybrid Long Documents with LLMs [48.87627426640621]
本研究は,財務報告から重要な情報を理解するために,大規模言語モデルの可能性を活用することに焦点を当てる。
財務報告から情報を理解し抽出するLLMの能力を高める自動財務情報抽出フレームワークを提案する。
本フレームワークは, GPT-3.5とGPT-4で有効に検証され, 平均精度は53.94%, 33.77%向上した。
論文 参考訳(メタデータ) (2023-05-24T10:35:58Z) - FETILDA: An Effective Framework For Fin-tuned Embeddings For Long
Financial Text Documents [14.269860621624394]
本稿では,長い文書をチャンクに分割し,事前学習したLMを用いてチャンクをベクトル表現に処理・集約するディープラーニングフレームワークを提案し,実装する。
我々は、米国銀行からの10-Kの公開開示レポートの収集と、米国企業が提出した別のレポートのデータセットについて、我々の枠組みを評価した。
論文 参考訳(メタデータ) (2022-06-14T16:14:14Z) - FinBERT-MRC: financial named entity recognition using BERT under the
machine reading comprehension paradigm [8.17576814961648]
我々はFinNERタスクを機械読解(MRC)問題として定式化し、FinBERT-MRCと呼ばれる新しいモデルを提案する。
この定式化は、よく設計されたクエリを利用して重要な事前情報を導入し、ターゲットエンティティの開始インデックスと終了インデックスを抽出する。
我々は,中国の財務データセットChFinAnnと実単語データセットAdminPunishについて実験を行った。
論文 参考訳(メタデータ) (2022-05-31T00:44:57Z) - DSC-IITISM at FinCausal 2021: Combining POS tagging with Attention-based
Contextual Representations for Identifying Causal Relationships in Financial
Documents [0.0]
因果検出は、情報検索、イベント予測、質問応答、財務分析、市場調査に応用されている。
本研究では,変換器を用いて財務文書の因果関係を同定し,抽出する手法について検討する。
最適手法は, ブラインドテストにおけるF1スコア0.9551, Exact Matchスコア0.8777を達成する。
論文 参考訳(メタデータ) (2021-10-31T13:09:19Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。