論文の概要: FIRE: A Comprehensive Benchmark for Financial Intelligence and Reasoning Evaluation
- arxiv url: http://arxiv.org/abs/2602.22273v1
- Date: Wed, 25 Feb 2026 08:53:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.34359
- Title: FIRE: A Comprehensive Benchmark for Financial Intelligence and Reasoning Evaluation
- Title(参考訳): 金融インテリジェンスと推論評価のための総合ベンチマークFIRE
- Authors: Xiyuan Zhang, Huihang Wu, Jiayu Guo, Zhenlin Zhang, Yiwei Zhang, Liangyu Huo, Xiaoxiao Ma, Jiansong Wan, Xuewei Jiao, Yi Jing, Jian Xie,
- Abstract要約: LLMの理論的財務知識と実践的なビジネスシナリオを扱う能力の両方を評価するために設計されたベンチマークであるFIREを紹介する。
理論的評価のために,広く認知されている財務試験から抽出された多様な試験問題を整理する。
実世界の金融業務におけるLLMの実践的価値を評価するために,複雑な金融分野を分類する体系的評価行列を提案する。
- 参考スコア(独自算出の注目度): 16.096968833930152
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce FIRE, a comprehensive benchmark designed to evaluate both the theoretical financial knowledge of LLMs and their ability to handle practical business scenarios. For theoretical assessment, we curate a diverse set of examination questions drawn from widely recognized financial qualification exams, enabling evaluation of LLMs deep understanding and application of financial knowledge. In addition, to assess the practical value of LLMs in real-world financial tasks, we propose a systematic evaluation matrix that categorizes complex financial domains and ensures coverage of essential subdomains and business activities. Based on this evaluation matrix, we collect 3,000 financial scenario questions, consisting of closed-form decision questions with reference answers and open-ended questions evaluated by predefined rubrics. We conduct comprehensive evaluations of state-of-the-art LLMs on the FIRE benchmark, including XuanYuan 4.0, our latest financial-domain model, as a strong in-domain baseline. These results enable a systematic analysis of the capability boundaries of current LLMs in financial applications. We publicly release the benchmark questions and evaluation code to facilitate future research.
- Abstract(参考訳): LLMの理論的財務知識と実践的なビジネスシナリオを扱う能力の両方を評価するために設計された総合的なベンチマークであるFIREを紹介する。
理論的評価のために、広く認知されている財務試験から抽出された多様な試験の集合をキュレートし、LLMの深い理解と財務知識の応用を可能にする。
また、実世界の金融業務におけるLCMの実践的価値を評価するために、複雑な金融分野を分類し、必要不可欠なサブドメインやビジネス活動のカバレッジを確保するための体系的評価行列を提案する。
この評価行列に基づいて, 3000の財務シナリオの質問を収集し, 参照回答付きクローズドフォーム決定質問と, 事前に定義されたルーリックによって評価されたオープンエンド質問からなる。
我々は、最新の金融ドメインモデルであるXuanYuan 4.0を含む、FIREベンチマーク上で、最先端LCMの包括的な評価を、強力なドメイン内ベースラインとして実施する。
これらの結果は、金融アプリケーションにおける現在のLLMの能力境界の体系的解析を可能にする。
我々は,今後の研究を促進するために,ベンチマーク質問と評価コードを公開した。
関連論文リスト
- QuantEval: A Benchmark for Financial Quantitative Tasks in Large Language Models [9.14836101052563]
大規模言語モデル(LLM)は、多くのドメインにわたって強力な能力を示してきたが、財務的な量的タスクの評価は依然として断片化されている。
我々は、知識に基づくQA、量的数学的推論、量的戦略コーディングの3つの重要な分野にわたるLCMを評価するベンチマークであるQuantEvalを紹介する。
論文 参考訳(メタデータ) (2026-01-13T16:14:23Z) - FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain [54.06289302468199]
FinTrust は金融アプリケーションにおける LLM の信頼性を評価するためのベンチマークである。
o4-miniのようなプロプライエタリなモデルは、安全性など、ほとんどのタスクでパフォーマンスに優れています。
DeepSeek-V3のようなオープンソースモデルは、業界レベルの公正さのような特定の分野に利点がある。
論文 参考訳(メタデータ) (2025-10-17T01:45:49Z) - The Scales of Justitia: A Comprehensive Survey on Safety Evaluation of LLMs [57.1838332916627]
大規模言語モデル(LLM)は自然言語処理(NLP)において顕著な能力を示している。
広範囲に展開したことにより、大きな安全上の懸念がもたらされた。
LLMの生成したコンテンツは、特に敵の文脈において、毒性、偏見、誤情報などの安全でない振る舞いを示す。
論文 参考訳(メタデータ) (2025-06-06T05:50:50Z) - Towards Competent AI for Fundamental Analysis in Finance: A Benchmark Dataset and Evaluation [5.892346584607669]
ファイナンシャルステートメント分析に着目したベンチマークデータセットであるFinAR-Benchを提案する。
重要な情報を抽出し、財務指標を計算し、論理的推論を適用する。
本研究は, 基礎解析におけるLLMの現在の強度と限界を明確に把握するものである。
論文 参考訳(メタデータ) (2025-05-22T07:06:20Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - Financial Knowledge Large Language Model [4.599537455808687]
大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークであるIDEA-FinBenchを紹介する。
金融分野への一般LLMの迅速な適応を容易にするためのフレームワークであるIDEA-FinKERを提案する。
最後に LLM を利用した財務質問応答システム IDEA-FinQA を提案する。
論文 参考訳(メタデータ) (2024-06-29T08:26:49Z) - SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである
6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。
実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文 参考訳(メタデータ) (2024-04-29T19:04:35Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。