論文の概要: SECQUE: A Benchmark for Evaluating Real-World Financial Analysis Capabilities
- arxiv url: http://arxiv.org/abs/2504.04596v1
- Date: Sun, 06 Apr 2025 19:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-08 14:14:20.279734
- Title: SECQUE: A Benchmark for Evaluating Real-World Financial Analysis Capabilities
- Title(参考訳): SECQUE: 実世界の財務分析能力を評価するベンチマーク
- Authors: Noga Ben Yoash, Meni Brief, Oded Ovadia, Gil Shenderovitz, Moshik Mishaeli, Rachel Lemberg, Eitam Sheetrit,
- Abstract要約: SECQUEは4つの主要なカテゴリにわたるSECの申請分析に関する専門家による565の質問で構成されている。
モデル性能を評価するため,複数のLLM判断器を利用した評価機構であるSECQUE-Judgeを開発した。
- 参考スコア(独自算出の注目度): 0.31410859223862103
- License:
- Abstract: We introduce SECQUE, a comprehensive benchmark for evaluating large language models (LLMs) in financial analysis tasks. SECQUE comprises 565 expert-written questions covering SEC filings analysis across four key categories: comparison analysis, ratio calculation, risk assessment, and financial insight generation. To assess model performance, we develop SECQUE-Judge, an evaluation mechanism leveraging multiple LLM-based judges, which demonstrates strong alignment with human evaluations. Additionally, we provide an extensive analysis of various models' performance on our benchmark. By making SECQUE publicly available, we aim to facilitate further research and advancements in financial AI.
- Abstract(参考訳): 金融分析タスクにおける大規模言語モデル(LLM)を評価するための総合ベンチマークであるSECQUEを紹介する。
SECQUEには、比較分析、比率計算、リスク評価、財務情報生成の4つの主要なカテゴリにわたるSECの申請分析に関する専門家による565の質問が含まれている。
モデル性能を評価するため,複数のLCMに基づく審査員による評価機構であるSECQUE-Judgeを開発した。
さらに、ベンチマークで様々なモデルの性能を広範囲に分析する。
SECQUEを一般公開することで、金融AIのさらなる研究と進歩を促進することを目指している。
関連論文リスト
- FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。
現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。
その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文 参考訳(メタデータ) (2025-01-30T00:06:55Z) - FinSphere: A Conversational Stock Analysis Agent Equipped with Quantitative Tools based on Real-Time Database [7.268553732731626]
FinSphereは、会話型の株式分析エージェントである。
統合されたフレームワークは、リアルタイムデータフィード、定量的ツール、および命令調整 LLM を組み合わせる。
論文 参考訳(メタデータ) (2025-01-08T07:50:50Z) - OmniEval: An Omnidirectional and Automatic RAG Evaluation Benchmark in Financial Domain [62.89809156574998]
金融分野において全方向自動RAGベンチマークであるOmniEvalを導入する。
我々のベンチマークは多次元評価フレームワークによって特徴づけられる。
実験では、広範囲なテストデータセットを含むOmniEvalの包括性を実証した。
論文 参考訳(メタデータ) (2024-12-17T15:38:42Z) - MME-Survey: A Comprehensive Survey on Evaluation of Multimodal LLMs [97.94579295913606]
MLLM(Multimodal Large Language Models)は、産業と学術の両方から注目を集めている。
開発プロセスでは、モデルの改善に関する直感的なフィードバックとガイダンスを提供するため、評価が重要である。
この研究は、研究者に異なるニーズに応じてMLLMを効果的に評価する方法を簡単に把握し、より良い評価方法を促すことを目的としている。
論文 参考訳(メタデータ) (2024-11-22T18:59:54Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである
6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。
実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文 参考訳(メタデータ) (2024-04-29T19:04:35Z) - Leveraging Large Language Models for NLG Evaluation: Advances and Challenges [57.88520765782177]
大規模言語モデル(LLM)は、コヒーレンス、クリエイティビティ、コンテキスト関連など、生成されたコンテンツ品質を評価するための新たな道を開いた。
既存のLCMに基づく評価指標を整理し、これらの手法を理解し比較するための構造化された枠組みを提供する。
本稿では, 偏見, 堅牢性, ドメイン固有性, 統一評価などの未解決課題を議論することによって, 研究者に洞察を提供し, より公平で高度なNLG評価手法を提唱することを目的とする。
論文 参考訳(メタデータ) (2024-01-13T15:59:09Z) - InFoBench: Evaluating Instruction Following Ability in Large Language
Models [57.27152890085759]
Decomposed Requirements following Ratio (DRFR) は、命令に従うLarge Language Models (LLM) 能力を評価するための新しい指標である。
InFoBenchは500の多様な命令と2250の分解された質問を複数の制約カテゴリに分けたベンチマークである。
論文 参考訳(メタデータ) (2024-01-07T23:01:56Z) - FinDABench: Benchmarking Financial Data Analysis Ability of Large Language Models [26.99936434072108]
textttFinDABenchは、大規模言語モデルの財務データ分析能力を評価するために設計されたベンチマークである。
textttFinDABenchは、LLM能力の詳細な分析のための指標を提供することを目的としている。
論文 参考訳(メタデータ) (2024-01-01T15:26:23Z) - Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4
on mock CFA Exams [26.318005637849915]
本研究では,Large Language Models (LLM) の金銭的推論能力を評価することを目的とした。
チャータード・ファイナンシャル・アナリスト(CFA)プログラムの模擬試験問題を利用して、ChatGPTとGPT-4の総合的な評価を行う。
本稿では,モデルの性能と限界を詳細に分析し,CFA試験に合格する確率を推定する。
論文 参考訳(メタデータ) (2023-10-12T19:28:57Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。