論文の概要: Evaluating Financial Intelligence in Large Language Models: Benchmarking SuperInvesting AI with LLM Engines
- arxiv url: http://arxiv.org/abs/2603.08704v1
- Date: Mon, 09 Mar 2026 17:58:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-10 15:13:16.703607
- Title: Evaluating Financial Intelligence in Large Language Models: Benchmarking SuperInvesting AI with LLM Engines
- Title(参考訳): 大規模言語モデルにおける金融インテリジェンスの評価: LLMエンジンによるAIのベンチマーク
- Authors: Akshay Gulati, Kanha Singhania, Tushar Banga, Parth Arora, Anshul Verma, Vaibhav Kumar Singh, Agyapal Digra, Jayant Singh Bisht, Danish Sharma, Varun Singla, Shubh Garg,
- Abstract要約: 金融分析能力の評価を目的とした多次元評価フレームワークであるAI Financial Intelligence Benchmark(AFIB)を紹介する。
GPT,Gemini,Perplexity,Claude,SuperInvestingの5つのAIシステムを評価する。
SuperInvestingは、平均的事実精度スコア8.96/10、最高完全度スコア56.65/70の集計性能を達成する。
- 参考スコア(独自算出の注目度): 1.1455937444848387
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are increasingly used for financial analysis and investment research, yet systematic evaluation of their financial reasoning capabilities remains limited. In this work, we introduce the AI Financial Intelligence Benchmark (AFIB), a multi-dimensional evaluation framework designed to assess financial analysis capabilities across five dimensions: factual accuracy, analytical completeness, data recency, model consistency, and failure patterns. We evaluate five AI systems: GPT, Gemini, Perplexity, Claude, and SuperInvesting, using a dataset of 95+ structured financial analysis questions derived from real-world equity research tasks. The results reveal substantial differences in performance across models. Within this benchmark setting, SuperInvesting achieves the highest aggregate performance, with an average factual accuracy score of 8.96/10 and the highest completeness score of 56.65/70, while also demonstrating the lowest hallucination rate among evaluated systems. Retrieval-oriented systems such as Perplexity perform strongly on data recency tasks due to live information access but exhibit weaker analytical synthesis and consistency. Overall, the results highlight that financial intelligence in large language models is inherently multi-dimensional, and systems that combine structured financial data access with analytical reasoning capabilities provide the most reliable performance for complex investment research workflows.
- Abstract(参考訳): 大規模言語モデルは、金融分析や投資研究にますます利用されているが、財務推論能力の体系的評価は依然として限られている。
本研究では,ファイナンシャル・インテリジェンス・ベンチマーク(AFIB, AI Financial Intelligence Benchmark)を紹介する。このフレームワークは, 事実的正確性, 分析的完全性, データ正確性, モデル整合性, 障害パターンの5次元にわたる財務分析能力を評価するための多次元評価フレームワークである。
GPT,Gemini,Perplexity,Claude,SuperInvestingの5つのAIシステムを評価する。
その結果、モデル間でのパフォーマンスに大きな違いが明らかとなった。
このベンチマーク設定では、SuperInvestingは、平均的事実精度スコア8.96/10、最高完全度スコア56.65/70、評価システムの中で最も低い幻覚率を示す。
Perplexityのような検索指向システムは、ライブ情報アクセスによるデータ遅延タスクに強く依存するが、より弱い分析合成と一貫性を示す。
全体として、大規模言語モデルにおける金融インテリジェンスは本質的に多次元であり、構造化された金融データアクセスと分析的推論能力を組み合わせたシステムは、複雑な投資研究ワークフローにおいて最も信頼性の高いパフォーマンスを提供する。
関連論文リスト
- FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。
プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。
2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文 参考訳(メタデータ) (2025-10-19T14:05:35Z) - FinDeepResearch: Evaluating Deep Research Agents in Rigorous Financial Analysis [110.5695516127813]
HisRubricは階層的な分析構造ときめ細かいグレーディングルーブリックを備えた新しい評価フレームワークである。
FinDeepResearchは、4つの言語にまたがる8つの金融市場から64の上場企業からなるベンチマークである。
6つのDRエージェント、深い推論能力と探索能力を備えた5つのLLM、深い推論能力を持つ5つのLLMを含む16の代表的な手法を用いてFinDeepResearchに関する広範な実験を行った。
論文 参考訳(メタデータ) (2025-10-15T17:21:56Z) - FinSearchComp: Towards a Realistic, Expert-Level Evaluation of Financial Search and Reasoning [30.252244345152956]
FinSearchCompは、現実的でオープンドメインの財務検索と推論のための、初めての完全なオープンソースベンチマークである。
このベンチマークには、世界および大中国市場にわたる635の質問が含まれている。
Grok 4(Web)は、専門家レベルの精度に近づき、グローバルサブセットのトップである。
論文 参考訳(メタデータ) (2025-09-16T15:13:13Z) - Evaluating Large Language Models for Financial Reasoning: A CFA-Based Benchmark Study [1.6770212301915661]
本研究は,CFAのレベルI-IIIにおける公式モック試験から得られた1,560件のマルチチョイス質問を用いて,最先端LCMの総合評価を行った最初の事例である。
主設計上の優先事項として,マルチモーダル・計算能力,推論・特殊化・高精度化,軽量な効率最適化といったモデルを比較した。
論文 参考訳(メタデータ) (2025-08-29T06:13:21Z) - Agentar-Fin-R1: Enhancing Financial Intelligence through Domain Expertise, Training Efficiency, and Advanced Reasoning [12.548390779247987]
本稿では,Agensar-Fin-R1シリーズを紹介する。
我々の最適化手法は、高品質で体系的な金融タスクラベルシステムを統合する。
われわれのモデルは、主要な金融指標を総合的に評価している。
論文 参考訳(メタデータ) (2025-07-22T17:52:16Z) - FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [65.04104723843264]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。
FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。
大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文 参考訳(メタデータ) (2025-04-22T11:30:13Z) - FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。
現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。
その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文 参考訳(メタデータ) (2025-01-30T00:06:55Z) - FISHNET: Financial Intelligence from Sub-querying, Harmonizing, Neural-Conditioning, Expert Swarms, and Task Planning [2.616867378362811]
FISHNETはエージェントアーキテクチャであり、98,000件以上の規制申請に対して非常に複雑な分析処理を行う。
FISHNETは、金融インサイト生成において顕著なパフォーマンスを示している。
論文 参考訳(メタデータ) (2024-10-25T17:53:47Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。