論文の概要: FinForge: Semi-Synthetic Financial Benchmark Generation
- arxiv url: http://arxiv.org/abs/2601.06747v2
- Date: Tue, 20 Jan 2026 04:03:53 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-21 18:45:13.481589
- Title: FinForge: Semi-Synthetic Financial Benchmark Generation
- Title(参考訳): FinForge: 半合成金融ベンチマーク生成
- Authors: Glenn Matlin, Akhil Theerthala, Anant Gupta, Anirudh JM, Rayan Castilla, Yi Mei Ng, Sudheer Chava,
- Abstract要約: FinForgeは、金融特化評価ベンチマークを構築するための、スケーラブルで半合成的なパイプラインである。
我々はFinForge-5kというベンチマークを作成した。これは11のファイナンスにまたがる5000以上の質問応答対からなるベンチマークベンチマークである。
FinForge-5kは金銭的推論に大きな違いを示し、主要なモデルは80%近い精度で達成されている。
- 参考スコア(独自算出の注目度): 4.3298251304921775
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating Language Models (LMs) in specialized, high-stakes domains such as finance remains a significant challenge due to the scarcity of open, high-quality, and domain-specific datasets. Existing general-purpose benchmarks provide broad coverage but lack the depth and domain fidelity needed to assess LMs' capabilities for real-world financial reasoning, which requires both conceptual understanding and quantitative rigor. To address this gap, we introduce FinForge, a scalable, semi-synthetic pipeline for constructing finance-specific evaluation benchmarks through a hybrid of expert-guided data curation and controlled LM-based synthesis. FinForge combines manual and programmatic corpus construction from authoritative financial sources with structured question generation and validation using Gemini 2.5 Flash. To demonstrate the pipeline's efficacy, we produce FinForge-5k, a snapshot benchmark comprising over 5,000 human-validated question-answer pairs across 11 finance subdomains, derived from a curated corpus of 100,000 verified documents totaling 143M tokens. Evaluation of state-of-the-art open-source and closed-source models on FinForge-5k reveals significant differences in financial reasoning, with leading models achieving accuracy levels near 80%. These findings underscore the framework's utility for diagnosing current model limitations and guiding future improvements in financial domain competence. All code and data are available at https://github.com/gtfintechlab/FinForge.
- Abstract(参考訳): 金融などの専門分野における言語モデル(LM)の評価は、オープン、高品質、ドメイン固有のデータセットが不足しているため、依然として大きな課題である。
既存の汎用ベンチマークは広範なカバレッジを提供するが、概念的理解と量的厳密さの両方を必要とする実世界の財務推論におけるLMの能力を評価するために必要な深さと領域の忠実さは欠如している。
このギャップに対処するため、我々はFinForgeを紹介した。FinForgeは、専門家が指導するデータキュレーションと制御されたLMベースの合成によって、金融特化評価ベンチマークを構築するためのスケーラブルな半合成パイプラインである。
FinForgeは、権威のある金融ソースから手動とプログラムによるコーパスの構築と、Gemini 2.5 Flashを使った構造化された質問生成と検証を組み合わせる。
パイプラインの有効性を示すために、11のファイナンスサブドメインにわたる5000以上の有能な質問応答ペアからなるベンチマークベンチマークFinForge-5kを作成し、合計143万個の認証済み文書をキュレートしたコーパスから抽出した。
FinForge-5k上での最先端のオープンソースおよびクローズドソースモデルの評価は、主要なモデルが80%近い精度を達成しているため、金銭的推論に大きな違いがあることを示している。
これらの知見は、現在のモデルの限界を診断し、金融分野の能力の将来の改善を導くためのフレームワークの有用性を強調している。
すべてのコードとデータはhttps://github.com/gtfintechlab/FinForgeで入手できる。
関連論文リスト
- FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。
プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。
2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文 参考訳(メタデータ) (2025-10-19T14:05:35Z) - FinWorld: An All-in-One Open-Source Platform for End-to-End Financial AI Research and Deployment [33.436388581893944]
FinWorldは、財務AIワークフロー全体に対するエンドツーエンドのサポートを提供する、オールインワンのオープンソースプラットフォームである。
4つの主要な金融AIタスクに関する総合的な実験を行います。
論文 参考訳(メタデータ) (2025-08-04T11:02:34Z) - FinChain: A Symbolic Benchmark for Verifiable Chain-of-Thought Financial Reasoning [82.7292329605713]
FinChainは、ファイナンスにおける検証可能なChain-of-Thought評価のために特別に設計された最初のベンチマークである。
12の金融ドメインに58のトピックがあり、それぞれがパラメータ化されたシンボリックテンプレートと実行可能なPythonトレースで表現されている。
FinChainは、多段階の財務推論における永続的な弱点を明らかにし、信頼できる、解釈可能な、検証可能な金融AIを開発するための基盤を提供する。
論文 参考訳(メタデータ) (2025-06-03T06:44:42Z) - FinMTEB: Finance Massive Text Embedding Benchmark [12.949322198287417]
金融分野向けに設計されたMTEBに特化して開発されたFinMTEB(FinMTEB)について紹介する。
FinMTEBは、7つのタスクにまたがる64の金融ドメイン固有の埋め込みデータセットで構成されている。
1)汎用ベンチマークのパフォーマンスは,金融ドメインタスクとの相関が限定されていること,(2)ドメイン適応モデルの方が汎用タスクより一貫して優れていること,(3)意外なことに,単純なBag-of-Wordsアプローチは,金融セマンティックテクスチャ類似タスクにおける高度に密着した埋め込みよりも優れていること,の3つの重要な結果を示す。
論文 参考訳(メタデータ) (2025-02-16T04:23:52Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [88.96861155804935]
オープンソースのマルチモーダル金融 LLM である textitOpen-FinLLMs を紹介する。
FinLLaMAは52ビリオンのトーケンコーパス、FinLLaMA-Instructは573Kの財務命令で微調整され、FinLLaVAは1.43Mのマルチモーダルチューニングペアで強化されている。
我々は、14の財務タスク、30のデータセット、および4つのマルチモーダルタスクにわたるOpen-FinLLMをゼロショット、少数ショット、教師付き微調整設定で評価した。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。