論文の概要: FinS-Pilot: A Benchmark for Online Financial System
- arxiv url: http://arxiv.org/abs/2506.02037v1
- Date: Sat, 31 May 2025 03:50:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-04 21:47:34.798633
- Title: FinS-Pilot: A Benchmark for Online Financial System
- Title(参考訳): FinS-Pilot:オンライン金融システムのベンチマーク
- Authors: Feng Wang, Yiding Sun, Jiaxin Mao, Wei Xue, Danqing Xu,
- Abstract要約: FinS-Pilotは、オンライン金融アプリケーションで大規模言語モデル(RAG)を評価するための新しいベンチマークである。
当社のベンチマークでは,インテント分類フレームワークによって編成されたリアルタイムAPIデータと構造化テキストソースの両方を取り入れている。
本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとキュレートデータセットの両方に貢献する。
- 参考スコア(独自算出の注目度): 17.65500174763836
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across various professional domains, with their performance typically evaluated through standardized benchmarks. However, the development of financial RAG benchmarks has been constrained by data confidentiality issues and the lack of dynamic data integration. To address this issue, we introduces FinS-Pilot, a novel benchmark for evaluating RAG systems in online financial applications. Constructed from real-world financial assistant interactions, our benchmark incorporates both real-time API data and structured text sources, organized through an intent classification framework covering critical financial domains such as equity analysis and macroeconomic forecasting. The benchmark enables comprehensive evaluation of financial assistants' capabilities in handling both static knowledge and time-sensitive market information. Through systematic experiments with multiple Chinese leading LLMs, we demonstrate FinS-Pilot's effectiveness in identifying models suitable for financial applications while addressing the current gap in specialized evaluation tools for the financial domain. Our work contributes both a practical evaluation framework and a curated dataset to advance research in financial NLP systems. The code and dataset are accessible on GitHub\footnote{https://github.com/PhealenWang/financial\_rag\_benchmark}.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な専門分野にまたがって顕著な能力を示しており、その性能は標準ベンチマークで評価されている。
しかし、金融RAGベンチマークの開発は、データの機密性の問題と動的なデータ統合の欠如によって制約されている。
この問題に対処するために、オンライン金融アプリケーションにおけるRAGシステム評価のための新しいベンチマークであるFinS-Pilotを紹介した。
実世界の金融アシスタントのインタラクションから構築したベンチマークでは、リアルタイムAPIデータと構造化テキストソースの両方を取り入れ、エクイティ分析やマクロ経済予測といった重要な金融分野をカバーする意図分類フレームワークを用いて編成した。
このベンチマークにより、静的知識と時間に敏感な市場情報の両方を扱う金融アシスタントの能力を総合的に評価できる。
複数の中国のLLMを用いた系統的な実験を通じて、金融分野の特殊評価ツールのギャップに対処しつつ、金融アプリケーションに適したモデルを特定するFinS-Pilotの有効性を実証する。
本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとキュレートデータセットの両方に貢献する。
コードとデータセットはGitHub\footnote{https://github.com/PhealenWang/financial\_rag\_benchmark}でアクセスできる。
関連論文リスト
- FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [63.55583665003167]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - KFinEval-Pilot: A Comprehensive Benchmark Suite for Korean Financial Language Understanding [6.3604109210772934]
KFinEval-Pilotは、韓国の金融ドメインで大規模言語モデル(LLM)を評価するために設計されたベンチマークスイートである。
金融知識、法的推論、金融毒性の3つの重要な領域に1,000以上のキュレートされた質問が含まれている。
論文 参考訳(メタデータ) (2025-04-17T00:12:58Z) - FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。
FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文 参考訳(メタデータ) (2025-02-26T05:19:16Z) - FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。
現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。
その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文 参考訳(メタデータ) (2025-01-30T00:06:55Z) - SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。
SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。
SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文 参考訳(メタデータ) (2024-08-05T08:24:24Z) - AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model
for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。
ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。
私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文 参考訳(メタデータ) (2022-10-31T18:35:18Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。