論文の概要: FinSage: A Multi-aspect RAG System for Financial Filings Question Answering
- arxiv url: http://arxiv.org/abs/2504.14493v1
- Date: Sun, 20 Apr 2025 04:58:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-30 00:15:15.15287
- Title: FinSage: A Multi-aspect RAG System for Financial Filings Question Answering
- Title(参考訳): FinSage: ファイナンシャルフィリング質問応答のためのマルチアスペクトRAGシステム
- Authors: Xinyu Wang, Jijun Chi, Zhenghan Tai, Tung Sum Thomas Kwok, Muzhi Li, Zhuhong Li, Hailin He, Yuchen Hua, Peng Lu, Suyuchen Wang, Yihong Wu, Jerry Huang, Ling Zhou,
- Abstract要約: FinSageはマルチモーダルな事前処理パイプラインで、多様なデータフォーマットを統一し、メタデータの要約を生成する。
実験の結果、FinSageは75人の専門家による質問に対して92.51%の印象的なリコールを達成した。
FinSageは、すでに1200人以上が利用しているオンラインミーティングにおいて、財務的な質問応答エージェントとして成功している。
- 参考スコア(独自算出の注目度): 7.7513659534623605
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Leveraging large language models in real-world settings often entails a need to utilize domain-specific data and tools in order to follow the complex regulations that need to be followed for acceptable use. Within financial sectors, modern enterprises increasingly rely on Retrieval-Augmented Generation (RAG) systems to address complex compliance requirements in financial document workflows. However, existing solutions struggle to account for the inherent heterogeneity of data (e.g., text, tables, diagrams) and evolving nature of regulatory standards used in financial filings, leading to compromised accuracy in critical information extraction. We propose the FinSage framework as a solution, utilizing a multi-aspect RAG framework tailored for regulatory compliance analysis in multi-modal financial documents. FinSage introduces three innovative components: (1) a multi-modal pre-processing pipeline that unifies diverse data formats and generates chunk-level metadata summaries, (2) a multi-path sparse-dense retrieval system augmented with query expansion (HyDE) and metadata-aware semantic search, and (3) a domain-specialized re-ranking module fine-tuned via Direct Preference Optimization (DPO) to prioritize compliance-critical content. Extensive experiments demonstrate that FinSage achieves an impressive recall of 92.51% on 75 expert-curated questions derived from surpasses the best baseline method on the FinanceBench question answering datasets by 24.06% in accuracy. Moreover, FinSage has been successfully deployed as financial question-answering agent in online meetings, where it has already served more than 1,200 people.
- Abstract(参考訳): 現実の環境で大きな言語モデルを活用するには、許容可能な使用のために従わなければならない複雑な規則に従うために、ドメイン固有のデータやツールを使用する必要があることが多い。
金融分野において、現代企業は、財務文書ワークフローにおける複雑なコンプライアンス要求に対処するために、レトリーバル拡張世代(RAG)システムにますます依存している。
しかし、既存のソリューションは、データ(例えば、テキスト、テーブル、ダイアグラム)の固有の異質性や、ファイナンシャルファイリングで使用される規制標準の進化の性質を考慮するのに苦労し、重要な情報抽出において精度を損なう結果となった。
我々はFinSageフレームワークをソリューションとして提案し、マルチモーダル財務文書における規制コンプライアンス分析に適したマルチアスペクトRAGフレームワークを利用する。
FinSageは,(1)多様なデータフォーマットを統一し,チャンクレベルのメタデータの要約を生成するマルチモーダル前処理パイプライン,(2)クエリ拡張(HyDE)とメタデータ認識セマンティックサーチを付加したマルチパススパース・センス検索システム,(3)ダイレクト・プライスペクティブ・オプティマイゼーション(DPO)によって微調整されたドメイン特化リグレード・モジュール,の3つの革新的なコンポーネントを紹介した。
大規模な実験により、FinSageは、ファイナンスベンチ質問回答データセットの最良のベースライン法を24.06%超える75のエキスパートキュレートされた75の質問に対して、92.51%の印象的なリコールを達成した。
さらに、FinSageは、すでに1200人以上が利用しているオンラインミーティングにおいて、財務的な質問応答エージェントとして成功している。
関連論文リスト
- FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [63.55583665003167]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - Optimizing Retrieval Strategies for Financial Question Answering Documents in Retrieval-Augmented Generation Systems [5.712288463584192]
Retrieval-Augmented Generation (RAG)は、大規模言語モデル(LLM)における幻覚を緩和するための有望なフレームワークとして登場した。
本研究では,財務文書の検索を効率化する,効率的なエンドツーエンドRAGパイプラインを提案する。
論文 参考訳(メタデータ) (2025-03-19T13:21:49Z) - FinTMMBench: Benchmarking Temporal-Aware Multi-Modal RAG in Finance [79.78247299859656]
FinTMMBenchは、ファイナンスにおける時間対応マルチモーダル検索・拡張生成システムを評価するための、最初の包括的なベンチマークである。
NASDAQ 100社の異種データから構築されたFinTMMBenchには,3つの大きなメリットがある。
論文 参考訳(メタデータ) (2025-03-07T07:13:59Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - Demystifying Domain-adaptive Post-training for Financial LLMs [79.581577578952]
FINDAPは、大規模言語モデル(LLM)のドメイン適応後学習に関する体系的できめ細かな研究である
このアプローチは、FinCap、FinRec、FinTrain、FinEvalの4つの重要なコンポーネントで構成されています。
結果として得られるモデルであるLlama-Finは、幅広い財務タスクで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-01-09T04:26:15Z) - Multi-Reranker: Maximizing performance of retrieval-augmented generation in the FinanceRAG challenge [5.279257531335345]
本稿では,ACM-ICAIF '24 FinanceRAGコンペティションのための,高性能で財務特化度の高いRetrieval-Augmented Generation(RAG)システムの開発について述べる。
我々は,検索前段階におけるクエリ拡張とコーパスの洗練に関するアブレーション研究を通じて,性能を最適化した。
特に,生成フェーズの長いコンテキストサイズを管理するための効率的な手法を導入し,性能を犠牲にすることなく応答品質を大幅に改善した。
論文 参考訳(メタデータ) (2024-11-23T09:56:21Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文 参考訳(メタデータ) (2024-08-05T08:24:24Z) - CatMemo at the FinLLM Challenge Task: Fine-Tuning Large Language Models using Data Fusion in Financial Applications [10.225210627594894]
IJCAI-2024 FinLLMの課題に対して,金融業務の3つの重要な領域におけるLLMの能力について検討した。
金融分類、財務文書要約、単一株式取引について検討する。
提案手法は,これらの多様なタスクを包括的かつ総合的に処理することを目的としており,LLMの多様かつ複雑な財務課題への対処能力の向上と意思決定能力の向上を図っている。
論文 参考訳(メタデータ) (2024-07-02T05:04:13Z) - Conversational Factor Information Retrieval Model (ConFIRM) [2.855224352436985]
ConFIRM(Conversational Factor Information Retrieval Method)は、ドメイン固有の検索タスクのための大規模言語モデル(LLM)を微調整する新しい手法である。
本研究では、金融セクターにおけるケーススタディを通じて、パーソナライズされたデータを用いてLlama-2-7bモデルを微調整し、ConFIRMの有効性を実証する。
結果のモデルでは、ファイナンシャルクエリの分類において91%の精度が達成され、NVIDIA A100 GPU上での平均推論時間は0.61秒であった。
論文 参考訳(メタデータ) (2023-10-06T12:31:05Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。