Fugu-MT 論文翻訳(概要): The FinBen: An Holistic Financial Benchmark for Large Language Models

論文の概要: The FinBen: An Holistic Financial Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2402.12659v1
Date: Tue, 20 Feb 2024 02:16:16 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-21 17:20:11.422220
Title: The FinBen: An Holistic Financial Benchmark for Large Language Models
Title（参考訳）: FinBen: 大規模言語モデルのためのホロスティックなファイナンシャルベンチマーク
Authors: Qianqian Xie, Weiguang Han, Zhengyu Chen, Ruoyu Xiang, Xiao Zhang, Yueru He, Mengxi Xiao, Dong Li, Yongfu Dai, Duanyu Feng, Yijing Xu, Haoqiang Kang, Ziyan Kuang, Chenhan Yuan, Kailai Yang, Zheheng Luo, Tianlin Zhang, Zhiwei Liu, Guojun Xiong, Zhiyang Deng, Yuechen Jiang, Zhiyuan Yao, Haohang Li, Yangyang Yu, Gang Hu, Jiajia Huang, Xiao-Yang Liu, Alejandro Lopez-Lira, Benyou Wang, Yanzhao Lai, Hao Wang, Min Peng, Sophia Ananiadou, and Jimin Huang
Abstract要約: FinBenは、金融分野におけるLLMの能力を徹底的に評価するために設計された、初めての包括的なオープンソース評価ベンチマークである。 FinBenは、23の財務タスクにわたる35のデータセットを含み、Cattell-Horn-Carroll理論にインスパイアされた3つの難易度に分類されている。 GPT-4, ChatGPT, そして最新のGeminiを含む15の代表的なLCMを評価した結果, 金融分野におけるその強みと限界についての知見が得られた。
参考スコア（独自算出の注目度）: 75.09474986283394
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: LLMs have transformed NLP and shown promise in various fields, yet their potential in finance is underexplored due to a lack of thorough evaluations and the complexity of financial tasks. This along with the rapid development of LLMs, highlights the urgent need for a systematic financial evaluation benchmark for LLMs. In this paper, we introduce FinBen, the first comprehensive open-sourced evaluation benchmark, specifically designed to thoroughly assess the capabilities of LLMs in the financial domain. FinBen encompasses 35 datasets across 23 financial tasks, organized into three spectrums of difficulty inspired by the Cattell-Horn-Carroll theory, to evaluate LLMs' cognitive abilities in inductive reasoning, associative memory, quantitative reasoning, crystallized intelligence, and more. Our evaluation of 15 representative LLMs, including GPT-4, ChatGPT, and the latest Gemini, reveals insights into their strengths and limitations within the financial domain. The findings indicate that GPT-4 leads in quantification, extraction, numerical reasoning, and stock trading, while Gemini shines in generation and forecasting; however, both struggle with complex extraction and forecasting, showing a clear need for targeted enhancements. Instruction tuning boosts simple task performance but falls short in improving complex reasoning and forecasting abilities. FinBen seeks to continuously evaluate LLMs in finance, fostering AI development with regular updates of tasks and models.
Abstract（参考訳）: LLMはNLPを変革し、様々な分野で有望であることを示しているが、財務面のポテンシャルは、徹底的な評価の欠如と金融業務の複雑さにより、過小評価されている。 LLMの急速な開発とともに、LLMの体系的な財務評価ベンチマークの必要性が浮き彫りになっている。本稿では,金融分野におけるllmの能力を徹底的に評価するための,初の総合的なオープンソース評価ベンチマークであるfinbenを紹介する。フィンベンは23の財務タスクにまたがる35のデータセットを包含し、カッテル・ホーン・キャロル理論に触発された難易度を3つのスペクトルに分類し、帰納的推論、連想記憶、量的推論、結晶化知能などにおけるllmsの認知能力を評価する。 GPT-4, ChatGPT, そして最新のGeminiを含む15の代表的なLCMを評価した結果, 金融分野におけるその強みと限界が明らかになった。その結果, GPT-4は定量化, 抽出, 数値推論, 株式取引に寄与し, ジェミニは生成と予測に力を入れているが, どちらも複雑な抽出と予測に苦慮しており, 目標とする拡張の必要性を明確に示している。命令チューニングは単純なタスクパフォーマンスを高めるが、複雑な推論と予測能力を改善するには不足する。 FinBenは金融のLLMを継続的に評価し、タスクとモデルの定期的な更新でAI開発を促進することを目指している。

関連論文リスト

FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。 FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文参考訳（メタデータ） (2025-05-18T11:47:55Z)
FLAME: Financial Large-Language Model Assessment and Metrics Evaluation [2.6420673380196824]
本稿では,中国における総合的なLLM評価システムであるFLAMEを紹介する。 FLAME-Cerは14種類の認証ファイナンスをカバーしており、合計で約16,000の慎重に選択された質問がある。 FLAME-Sceは10の主要な金融ビジネスシナリオ、21の二次金融ビジネスシナリオ、100近い第三次金融アプリケーションタスクの包括的な評価セットで構成されている。
論文参考訳（メタデータ） (2025-01-03T09:17:23Z)
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文参考訳（メタデータ） (2024-08-20T16:15:28Z)
CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文参考訳（メタデータ） (2024-07-02T14:34:36Z)
AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文参考訳（メタデータ） (2024-03-19T09:45:33Z)
A Survey of Large Language Models in Finance (FinLLMs) [10.195778659105626]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクで顕著な機能を示している。この調査は、FinLLMの歴史、テクニック、パフォーマンス、機会と課題を含む、包括的な概要を提供する。ファイナンスにおけるAI研究を支援するために、アクセス可能なデータセットと評価ベンチマークのコレクションをGitHubにコンパイルします。
論文参考訳（メタデータ） (2024-02-04T02:06:57Z)
FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models [25.137098233579255]
FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。 FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
論文参考訳（メタデータ） (2023-08-19T10:38:00Z)
FinGPT: Democratizing Internet-scale Data for Financial Large Language Models [35.83244096535722]
大型言語モデル (LLM) は、人間に似たテキストの理解と生成に顕著な熟練性を示した。ファイナンシャル・ジェネレーティブ・プレトレーニング・トランスフォーマー(FinGPT)は、インターネット上の34の多様なソースからリアルタイムの財務データの収集とキュレーションを自動化する。 FinGPTは、FinLLMを民主化し、イノベーションを刺激し、オープンファイナンスにおける新たな機会を開放することを目指している。
論文参考訳（メタデータ） (2023-07-19T22:43:57Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文参考訳（メタデータ） (2021-09-01T00:08:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。