Fugu-MT 論文翻訳(概要): FinS-Pilot: A Benchmark for Online Financial System

論文の概要: FinS-Pilot: A Benchmark for Online Financial System

arxiv url: http://arxiv.org/abs/2506.02037v1
Date: Sat, 31 May 2025 03:50:19 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-04 21:47:34.798633
Title: FinS-Pilot: A Benchmark for Online Financial System
Title（参考訳）: FinS-Pilot:オンライン金融システムのベンチマーク
Authors: Feng Wang, Yiding Sun, Jiaxin Mao, Wei Xue, Danqing Xu,
Abstract要約: FinS-Pilotは、オンライン金融アプリケーションで大規模言語モデル(RAG)を評価するための新しいベンチマークである。当社のベンチマークでは,インテント分類フレームワークによって編成されたリアルタイムAPIデータと構造化テキストソースの両方を取り入れている。本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとキュレートデータセットの両方に貢献する。
参考スコア（独自算出の注目度）: 17.65500174763836
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: Large language models (LLMs) have demonstrated remarkable capabilities across various professional domains, with their performance typically evaluated through standardized benchmarks. However, the development of financial RAG benchmarks has been constrained by data confidentiality issues and the lack of dynamic data integration. To address this issue, we introduces FinS-Pilot, a novel benchmark for evaluating RAG systems in online financial applications. Constructed from real-world financial assistant interactions, our benchmark incorporates both real-time API data and structured text sources, organized through an intent classification framework covering critical financial domains such as equity analysis and macroeconomic forecasting. The benchmark enables comprehensive evaluation of financial assistants' capabilities in handling both static knowledge and time-sensitive market information. Through systematic experiments with multiple Chinese leading LLMs, we demonstrate FinS-Pilot's effectiveness in identifying models suitable for financial applications while addressing the current gap in specialized evaluation tools for the financial domain. Our work contributes both a practical evaluation framework and a curated dataset to advance research in financial NLP systems. The code and dataset are accessible on GitHub\footnote{https://github.com/PhealenWang/financial\_rag\_benchmark}.
Abstract（参考訳）: 大規模言語モデル(LLM)は、様々な専門分野にまたがって顕著な能力を示しており、その性能は標準ベンチマークで評価されている。しかし、金融RAGベンチマークの開発は、データの機密性の問題と動的なデータ統合の欠如によって制約されている。この問題に対処するために、オンライン金融アプリケーションにおけるRAGシステム評価のための新しいベンチマークであるFinS-Pilotを紹介した。実世界の金融アシスタントのインタラクションから構築したベンチマークでは、リアルタイムAPIデータと構造化テキストソースの両方を取り入れ、エクイティ分析やマクロ経済予測といった重要な金融分野をカバーする意図分類フレームワークを用いて編成した。このベンチマークにより、静的知識と時間に敏感な市場情報の両方を扱う金融アシスタントの能力を総合的に評価できる。複数の中国のLLMを用いた系統的な実験を通じて、金融分野の特殊評価ツールのギャップに対処しつつ、金融アプリケーションに適したモデルを特定するFinS-Pilotの有効性を実証する。本研究は,金融NLPシステムの研究を進めるための,実践的評価フレームワークとキュレートデータセットの両方に貢献する。コードとデータセットはGitHub\footnote{https://github.com/PhealenWang/financial\_rag\_benchmark}でアクセスできる。

関連論文リスト

BizFinBench.v2: A Unified Dual-Mode Bilingual Benchmark for Expert-Level Financial Capability Alignment [12.163992099059461]
BizFinBench.v2は中国と米国両方の株式市場のビジネスデータに基づく最初の大規模評価ベンチマークである。その結果、8つの基本的なタスクと2つのオンラインタスク、合計29,578人のエキスパートレベルのQ&Aペアが得られた。 ChatGPT-5は主要なタスクにおいて61.5%の精度を達成しているが、金融専門家とはかなりの差がある。オンラインタスクでは、DeepSeek-R1は他の商用LLMよりも優れています。
論文参考訳（メタデータ） (2026-01-10T02:51:53Z)
UniFinEval: Towards Unified Evaluation of Financial Multimodal Models across Text, Images and Videos [22.530796761115766]
我々は、情報密度の高い金融環境のための最初の統合マルチモーダルベンチマークUniFinEvalを提案する。 UniFinEvalは、現実世界の金融システムに根ざした5つの中核的な金融シナリオを体系的に構築する。 Gemini-3-pro-previewは、全体的なパフォーマンスは最高だが、財務の専門家と比べて大きな差がある。
論文参考訳（メタデータ） (2026-01-09T10:15:32Z)
FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。 2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文参考訳（メタデータ） (2025-10-19T14:05:35Z)
EDINET-Bench: Evaluating LLMs on Complex Financial Tasks using Japanese Financial Statements [7.259647868714988]
EDINET-Benchは,大規模言語モデル(LLM)の性能を評価するための,オープンソースの日本語金融ベンチマークである。我々の実験は、最先端のLLMでさえも、不正検出と利益予測のためのバイナリ分類において、ロジスティック回帰よりもわずかに優れた性能を発揮していることを示している。我々のデータセット、ベンチマーク構築コード、評価コードは、LLMによる将来の金融研究を促進するために公開されています。
論文参考訳（メタデータ） (2025-06-10T13:03:36Z)
FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [63.55583665003167]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。 FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文参考訳（メタデータ） (2025-04-22T11:30:13Z)
KFinEval-Pilot: A Comprehensive Benchmark Suite for Korean Financial Language Understanding [6.3604109210772934]
KFinEval-Pilotは、韓国の金融ドメインで大規模言語モデル(LLM)を評価するために設計されたベンチマークスイートである。金融知識、法的推論、金融毒性の3つの重要な領域に1,000以上のキュレートされた質問が含まれている。
論文参考訳（メタデータ） (2025-04-17T00:12:58Z)
FinTSB: A Comprehensive and Practical Benchmark for Financial Time Series Forecasting [58.70072722290475]
ファイナンシャル・タイム・シリーズ(FinTS)は、人間の脳を増強した意思決定の行動を記録する。 FinTSBは金融時系列予測のための総合的で実用的なベンチマークである。
論文参考訳（メタデータ） (2025-02-26T05:19:16Z)
FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文参考訳（メタデータ） (2025-01-30T00:06:55Z)
SNFinLLM: Systematic and Nuanced Financial Domain Adaptation of Chinese Large Language Models [6.639972934967109]
大規模言語モデル (LLM) は、金融業界において自然言語処理を推進するための強力なツールとなっている。 SNFinLLMという中国の金融ドメイン向けに設計された新しい大規模言語モデルを提案する。 SNFinLLMは、質問への回答、財務調査レポートの要約、感情の分析、財務計算の実行など、ドメイン固有のタスクに優れています。
論文参考訳（メタデータ） (2024-08-05T08:24:24Z)
Advancing Anomaly Detection: Non-Semantic Financial Data Encoding with LLMs [49.57641083688934]
本稿では,Large Language Models (LLM) 埋め込みを用いた財務データにおける異常検出の新しい手法を提案する。実験により,LLMが異常検出に有用な情報をもたらし,モデルがベースラインを上回っていることが確認された。
論文参考訳（メタデータ） (2024-06-05T20:19:09Z)
AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文参考訳（メタデータ） (2024-03-19T09:45:33Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文参考訳（メタデータ） (2022-10-31T18:35:18Z)
FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文参考訳（メタデータ） (2021-09-01T00:08:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。