論文の概要: The FinBen: An Holistic Financial Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2402.12659v1
- Date: Tue, 20 Feb 2024 02:16:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-21 17:20:11.422220
- Title: The FinBen: An Holistic Financial Benchmark for Large Language Models
- Title(参考訳): FinBen: 大規模言語モデルのためのホロスティックなファイナンシャルベンチマーク
- Authors: Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang,
Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang
Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang,
Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang
Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira,
Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, and Jimin
Huang
- Abstract要約: FinBenは、金融分野におけるLLMの能力を徹底的に評価するために設計された、初めての包括的なオープンソース評価ベンチマークである。
FinBenは、23の財務タスクにわたる35のデータセットを含み、Cattell-Horn-Carroll理論にインスパイアされた3つの難易度に分類されている。
GPT-4, ChatGPT, そして最新のGeminiを含む15の代表的なLCMを評価した結果, 金融分野におけるその強みと限界についての知見が得られた。
- 参考スコア(独自算出の注目度): 75.09474986283394
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: LLMs have transformed NLP and shown promise in various fields, yet their
potential in finance is underexplored due to a lack of thorough evaluations and
the complexity of financial tasks. This along with the rapid development of
LLMs, highlights the urgent need for a systematic financial evaluation
benchmark for LLMs. In this paper, we introduce FinBen, the first comprehensive
open-sourced evaluation benchmark, specifically designed to thoroughly assess
the capabilities of LLMs in the financial domain. FinBen encompasses 35
datasets across 23 financial tasks, organized into three spectrums of
difficulty inspired by the Cattell-Horn-Carroll theory, to evaluate LLMs'
cognitive abilities in inductive reasoning, associative memory, quantitative
reasoning, crystallized intelligence, and more. Our evaluation of 15
representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals
insights into their strengths and limitations within the financial domain. The
findings indicate that GPT-4 leads in quantification, extraction, numerical
reasoning, and stock trading, while Gemini shines in generation and
forecasting; however, both struggle with complex extraction and forecasting,
showing a clear need for targeted enhancements. Instruction tuning boosts
simple task performance but falls short in improving complex reasoning and
forecasting abilities. FinBen seeks to continuously evaluate LLMs in finance,
fostering AI development with regular updates of tasks and models.
- Abstract(参考訳): LLMはNLPを変革し、様々な分野で有望であることを示しているが、財務面のポテンシャルは、徹底的な評価の欠如と金融業務の複雑さにより、過小評価されている。
LLMの急速な開発とともに、LLMの体系的な財務評価ベンチマークの必要性が浮き彫りになっている。
本稿では,金融分野におけるllmの能力を徹底的に評価するための,初の総合的なオープンソース評価ベンチマークであるfinbenを紹介する。
フィンベンは23の財務タスクにまたがる35のデータセットを包含し、カッテル・ホーン・キャロル理論に触発された難易度を3つのスペクトルに分類し、帰納的推論、連想記憶、量的推論、結晶化知能などにおけるllmsの認知能力を評価する。
GPT-4, ChatGPT, そして最新のGeminiを含む15の代表的なLCMを評価した結果, 金融分野におけるその強みと限界が明らかになった。
その結果, GPT-4は定量化, 抽出, 数値推論, 株式取引に寄与し, ジェミニは生成と予測に力を入れているが, どちらも複雑な抽出と予測に苦慮しており, 目標とする拡張の必要性を明確に示している。
命令チューニングは単純なタスクパフォーマンスを高めるが、複雑な推論と予測能力を改善するには不足する。
FinBenは金融のLLMを継続的に評価し、タスクとモデルの定期的な更新でAI開発を促進することを目指している。
関連論文リスト
- Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。
我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。
また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - A Survey of Large Language Models in Finance (FinLLMs) [10.195778659105626]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクで顕著な機能を示している。
この調査は、FinLLMの歴史、テクニック、パフォーマンス、機会と課題を含む、包括的な概要を提供する。
ファイナンスにおけるAI研究を支援するために、アクセス可能なデータセットと評価ベンチマークのコレクションをGitHubにコンパイルします。
論文 参考訳(メタデータ) (2024-02-04T02:06:57Z) - FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for
Large Language Models [25.137098233579255]
FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。
FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。
その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
論文 参考訳(メタデータ) (2023-08-19T10:38:00Z) - FinGPT: Democratizing Internet-scale Data for Financial Large Language
Models [35.83244096535722]
大型言語モデル (LLM) は、人間に似たテキストの理解と生成に顕著な熟練性を示した。
ファイナンシャル・ジェネレーティブ・プレトレーニング・トランスフォーマー(FinGPT)は、インターネット上の34の多様なソースからリアルタイムの財務データの収集とキュレーションを自動化する。
FinGPTは、FinLLMを民主化し、イノベーションを刺激し、オープンファイナンスにおける新たな機会を開放することを目指している。
論文 参考訳(メタデータ) (2023-07-19T22:43:57Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。