論文の概要: Tracing Content Requirements in Financial Documents using Multi-granularity Text Analysis
- arxiv url: http://arxiv.org/abs/2110.14960v2
- Date: Tue, 25 Mar 2025 14:42:17 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-27 02:13:56.104804
- Title: Tracing Content Requirements in Financial Documents using Multi-granularity Text Analysis
- Title(参考訳): 多粒性テキスト分析による財務文書の内容の追跡
- Authors: Xiaochen Li, Domenico Bianculli, Lionel C. Briand,
- Abstract要約: 金融文書の完全性(内容的には)は投資資金の基本的要件である。
複数粒度テキスト分析による財務文書のコンテンツ要求をトレースするFITIを提案する。
FITIは、それぞれ0.824、0.646、0.716の平均精度、リコール、F1スコアの正確な識別を提供することができる。
- 参考スコア(独自算出の注目度): 10.684109842514772
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The completeness (in terms of content) of financial documents is a fundamental requirement for investment funds. To ensure completeness, financial regulators have to spend significant time carefully checking every financial document based on relevant content requirements, which prescribe the information types to be included in financial documents (e.g., the description of shares' issue conditions and procedures). However, existing techniques provide limited support to help regulators automatically identify the text chunks related to financial information types, due to the complexity of financial documents. In this paper, we propose FITI to trace content requirements in financial documents with multi-granularity text analysis. Given a new financial document, FITI first selects a set of candidate sentences for efficient information type identification. Then, to rank candidate sentences, FITI uses a combination of rule-based and data-centric approaches, by leveraging information retrieval (IR) and machine learning (ML) techniques that analyze the words, sentences, and contexts related to an information type. Finally, a heuristic-based selector, which considers both the sentence ranking and domain-specific phrases, determines a list of sentences corresponding to each information type. We evaluated FITI by assessing its effectiveness in tracing financial content requirements in 100 real-world financial documents. Experimental results show that FITI is able to provide accurate identification with average precision, recall, and F1-score values of 0.824, 0.646, and 0.716, respectively. The overall accuracy of FITI significantly outperforms the best baseline (based on a transformer language model) by 0.266 in terms of F1-score. Furthermore, FITI can help regulators detect about 80% of missing information types in financial documents
- Abstract(参考訳): 金融文書の完全性(内容的には)は投資資金の基本的要件である。
完全性を確保するため、金融規制当局は、関連コンテンツ要件に基づいてすべての財務書類を慎重にチェックし、金融文書に含まれる情報の種類(株の発行条件や手順の説明など)を規定しなければならない。
しかし、既存の技術は、金融文書の複雑さのため、規制当局が金融情報の種類に関連するテキストチャンクを自動的に識別するのを助けるための限定的なサポートを提供している。
本稿では,マルチグラニュラリティテキスト分析による財務文書のコンテンツ要求をトレースするFITIを提案する。
新しい財務文書が与えられたら、FITIはまず、効率的な情報型識別のための候補文のセットを選択する。
そして、FITIは、情報検索(IR)と機械学習(ML)技術を利用して、情報型に関連する単語、文、コンテキストを分析することによって、ルールベースのアプローチとデータ中心のアプローチの組み合わせをランク付けする。
最後に、文ランキングとドメイン固有のフレーズの両方を考慮したヒューリスティックベースのセレクタが、各情報タイプに対応する文のリストを決定する。
実世界の100の財務文書における財務コンテンツ要求の追跡におけるFITIの有効性を評価することにより、FITIを評価した。
実験結果から,FITIは平均精度,リコール値,F1スコア値それぞれ0.824,0.646,0.716の精度で同定できることがわかった。
FITIの全体的な精度は、F1スコアの点で0.266で最高のベースライン(トランスフォーマー言語モデルに基づく)を上回っている。
さらにFITIは、金融文書に欠落する情報の約80%を規制当局が検出するのに役立つ
関連論文リスト
- FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [63.55583665003167]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - FinSage: A Multi-aspect RAG System for Financial Filings Question Answering [7.581619443736712]
FinSageはマルチモーダルな事前処理パイプラインで、多様なデータフォーマットを統一し、メタデータの要約を生成する。
実験の結果、FinSageは75人の専門家による質問に対して92.51%の印象的なリコールを達成した。
FinSageは、すでに1200人以上が利用しているオンラインミーティングにおいて、財務的な質問応答エージェントとして成功している。
論文 参考訳(メタデータ) (2025-04-20T04:58:14Z) - FinTMMBench: Benchmarking Temporal-Aware Multi-Modal RAG in Finance [79.78247299859656]
FinTMMBenchは、ファイナンスにおける時間対応マルチモーダル検索・拡張生成システムを評価するための、最初の包括的なベンチマークである。
NASDAQ 100社の異種データから構築されたFinTMMBenchには,3つの大きなメリットがある。
論文 参考訳(メタデータ) (2025-03-07T07:13:59Z) - Unified Multimodal Interleaved Document Representation for Retrieval [57.65409208879344]
複数のモダリティでインターリーブされた文書を階層的に埋め込む手法を提案する。
セグメント化されたパスの表現を1つのドキュメント表現にマージする。
我々は,本手法が関連するベースラインを大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-10-03T17:49:09Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - DocFinQA: A Long-Context Financial Reasoning Dataset [17.752081303855263]
長期の財務QAタスクを導入します。
平均文脈長をFinQAの700語未満からDocFinQAの123k語に拡張する。
検索に基づくQAパイプラインと長文言語モデルに関する広範な実験を行う。
論文 参考訳(メタデータ) (2024-01-12T22:19:22Z) - Conversational Factor Information Retrieval Model (ConFIRM) [2.855224352436985]
ConFIRM(Conversational Factor Information Retrieval Method)は、ドメイン固有の検索タスクのための大規模言語モデル(LLM)を微調整する新しい手法である。
本研究では、金融セクターにおけるケーススタディを通じて、パーソナライズされたデータを用いてLlama-2-7bモデルを微調整し、ConFIRMの有効性を実証する。
結果のモデルでは、ファイナンシャルクエリの分類において91%の精度が達成され、NVIDIA A100 GPU上での平均推論時間は0.61秒であった。
論文 参考訳(メタデータ) (2023-10-06T12:31:05Z) - Fin-Fact: A Benchmark Dataset for Multimodal Financial Fact Checking and Explanation Generation [26.573578326262307]
Fin-Factは金融ドメイン内のマルチモーダル事実チェックのためのベンチマークデータセットである。
専門的なファクトチェッカーアノテーションと正当化が含まれ、専門知識と信頼性を提供する。
論文 参考訳(メタデータ) (2023-09-15T22:24:00Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - Enabling and Analyzing How to Efficiently Extract Information from
Hybrid Long Documents with LLMs [48.87627426640621]
本研究は,財務報告から重要な情報を理解するために,大規模言語モデルの可能性を活用することに焦点を当てる。
財務報告から情報を理解し抽出するLLMの能力を高める自動財務情報抽出フレームワークを提案する。
本フレームワークは, GPT-3.5とGPT-4で有効に検証され, 平均精度は53.94%, 33.77%向上した。
論文 参考訳(メタデータ) (2023-05-24T10:35:58Z) - FETILDA: An Effective Framework For Fin-tuned Embeddings For Long
Financial Text Documents [14.269860621624394]
本稿では,長い文書をチャンクに分割し,事前学習したLMを用いてチャンクをベクトル表現に処理・集約するディープラーニングフレームワークを提案し,実装する。
我々は、米国銀行からの10-Kの公開開示レポートの収集と、米国企業が提出した別のレポートのデータセットについて、我々の枠組みを評価した。
論文 参考訳(メタデータ) (2022-06-14T16:14:14Z) - FinBERT-MRC: financial named entity recognition using BERT under the
machine reading comprehension paradigm [8.17576814961648]
我々はFinNERタスクを機械読解(MRC)問題として定式化し、FinBERT-MRCと呼ばれる新しいモデルを提案する。
この定式化は、よく設計されたクエリを利用して重要な事前情報を導入し、ターゲットエンティティの開始インデックスと終了インデックスを抽出する。
我々は,中国の財務データセットChFinAnnと実単語データセットAdminPunishについて実験を行った。
論文 参考訳(メタデータ) (2022-05-31T00:44:57Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。