論文の概要: FinS-Pilot: A Benchmark for Online Financial RAG System
- arxiv url: http://arxiv.org/abs/2506.02037v2
- Date: Mon, 01 Sep 2025 10:49:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-03 14:24:52.405525
- Title: FinS-Pilot: A Benchmark for Online Financial RAG System
- Title(参考訳): FinS-Pilot:オンライン金融RAGシステムのベンチマーク
- Authors: Feng Wang, Yiding Sun, Jiaxin Mao, Wei Xue, Danqing Xu,
- Abstract要約: FinS-Pilotはオンライン金融アプリケーションにおけるRAGシステム評価のための新しいベンチマークである。
我々のベンチマークでは、インテント分類フレームワークによって編成されたリアルタイムAPIデータとテキストデータの両方が組み込まれている。
本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとデータセットの両立に寄与する。
- 参考スコア(独自算出の注目度): 21.64301644235658
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across various professional domains, with their performance typically evaluated through standardized benchmarks. In the financial field, the stringent demands for professional accuracy and real-time data processing often necessitate the use of retrieval-augmented generation (RAG) techniques. However, the development of financial RAG benchmarks has been constrained by data confidentiality issues and the lack of dynamic data integration. To address this issue, we introduce FinS-Pilot, a novel benchmark for evaluating RAG systems in online financial applications. Constructed from real-world financial assistant interactions, our benchmark incorporates both real-time API data and text data, organized through an intent classification framework covering critical financial domains. The benchmark enables comprehensive evaluation of financial assistants' capabilities in handling both static knowledge and time-sensitive market information.Through systematic experiments with multiple Chinese leading LLMs, we demonstrate FinS-Pilot's effectiveness in identifying models suitable for financial applications while addressing the current gap in specialized evaluation tools for the financial domain. Our work contributes both a practical evaluation framework and a curated dataset to advance research in financial NLP systems. The code and dataset are accessible on GitHub.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な専門分野にまたがって顕著な能力を示しており、その性能は標準ベンチマークで評価されている。
金融分野では、専門的精度とリアルタイムデータ処理に対する厳しい要求は、しばしば検索強化世代(RAG)技術の使用を必要とする。
しかし、金融RAGベンチマークの開発は、データの機密性の問題と動的なデータ統合の欠如によって制約されている。
この問題に対処するために、オンライン金融アプリケーションにおけるRAGシステム評価のための新しいベンチマークであるFinS-Pilotを紹介する。
実世界の金融アシスタントのインタラクションから構築したベンチマークでは、重要な金融ドメインをカバーする意図分類フレームワークを用いて、リアルタイムAPIデータとテキストデータの両方を組み込んだ。
本ベンチマークは、静的知識と時間感受性市場情報の両方を扱う金融アシスタントの能力を総合的に評価することを可能にし、複数の中国主導のLLMによる体系的な実験から、金融分野の特殊評価ツールのギャップに対処しつつ、金融応用に適したモデルを特定するFinS-Pilotの有効性を実証する。
本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとキュレートデータセットの両方に貢献する。
コードとデータセットはGitHubからアクセスできる。
関連論文リスト
- EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements [7.259647868714988]
EDINET-Benchは,大規模言語モデル(LLM)の性能を評価するための,オープンソースの日本語金融ベンチマークである。
我々の実験は、最先端のLLMでさえも、不正検出と利益予測のためのバイナリ分類において、ロジスティック回帰よりもわずかに優れた性能を発揮していることを示している。
我々のデータセット、ベンチマーク構築コード、評価コードは、LLMによる将来の金融研究を促進するために公開されています。
論文 参考訳(メタデータ) (2025-06-10T13:03:36Z) - FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [63.55583665003167]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - KFinEval-Pilot: A Comprehensive Benchmark Suite for Korean Financial Language Understanding [6.3604109210772934]
KFinEval-Pilotは、韓国の金融ドメインで大規模言語モデル(LLM)を評価するために設計されたベンチマークスイートである。
金融知識、法的推論、金融毒性の3つの重要な領域に1,000以上のキュレートされた質問が含まれている。
論文 参考訳(メタデータ) (2025-04-17T00:12:58Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。
現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。
その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文 参考訳(メタデータ) (2025-01-30T00:06:55Z) - SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文 参考訳(メタデータ) (2024-08-05T08:24:24Z) - Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。
実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文 参考訳(メタデータ) (2024-06-05T20:19:09Z) - AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model
for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。
ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。
私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文 参考訳(メタデータ) (2022-10-31T18:35:18Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。