論文の概要: FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2308.09975v2
- Date: Sun, 08 Dec 2024 06:34:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-12-10 14:49:56.704331
- Title: FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models
- Title(参考訳): FinEval: 大規模言語モデルのための中国の金融ドメイン知識評価ベンチマーク
- Authors: Xin Guo, Haotian Xia, Zhaowei Liu, Hanyang Cao, Zhi Yang, Zhiqiang Liu, Sizhe Wang, Jinyi Niu, Chuqi Wang, Yanhui Wang, Xiaolong Liang, Xiaoming Huang, Bing Zhu, Zhongyu Wei, Yun Chen, Weining Shen, Liwen Zhang,
- Abstract要約: 本稿では,LLMの金融分野の知識と実践能力を評価するためのベンチマークであるFinEvalについて述べる。
データセットには、金融学術知識、金融産業知識、金融セキュリティ知識、金融エージェントの4つの重要な領域に分類される8,351の質問が含まれている。
以上の結果から、Claude 3.5-Sonnetは、ゼロショット設定下において、すべての金融ドメインカテゴリで72.9の最大重み付き平均スコアを達成している。
- 参考スコア(独自算出の注目度): 31.961563103990432
- License:
- Abstract: Large language models have demonstrated outstanding performance in various natural language processing tasks, but their security capabilities in the financial domain have not been explored, and their performance on complex tasks like financial agent remains unknown. This paper presents FinEval, a benchmark designed to evaluate LLMs' financial domain knowledge and practical abilities. The dataset contains 8,351 questions categorized into four different key areas: Financial Academic Knowledge, Financial Industry Knowledge, Financial Security Knowledge, and Financial Agent. Financial Academic Knowledge comprises 4,661 multiple-choice questions spanning 34 subjects such as finance and economics. Financial Industry Knowledge contains 1,434 questions covering practical scenarios like investment research. Financial Security Knowledge assesses models through 1,640 questions on topics like application security and cryptography. Financial Agent evaluates tool usage and complex reasoning with 616 questions. FinEval has multiple evaluation settings, including zero-shot, five-shot with chain-of-thought, and assesses model performance using objective and subjective criteria. Our results show that Claude 3.5-Sonnet achieves the highest weighted average score of 72.9 across all financial domain categories under zero-shot setting. Our work provides a comprehensive benchmark closely aligned with Chinese financial domain.
- Abstract(参考訳): 大規模言語モデルは、様々な自然言語処理タスクにおいて顕著なパフォーマンスを示してきたが、金融分野におけるセキュリティ能力は検討されておらず、金融エージェントのような複雑なタスクにおけるパフォーマンスはいまだに不明である。
本稿では,LLMの金融分野の知識と実践能力を評価するためのベンチマークであるFinEvalについて述べる。
データセットには、金融学術知識、金融産業知識、金融セキュリティ知識、金融エージェントの4つの重要な領域に分類される8,351の質問が含まれている。
ファイナンシャル・アカデミック・ナレッジは、金融や経済学など34の分野にまたがる4,661の多重選択質問からなる。
金融業界知識には、投資研究のような実践シナリオに関する1434の質問が含まれている。
金融セキュリティ知識(Financial Security Knowledge)は、アプリケーションセキュリティや暗号化といったトピックに関する1,640の質問を通じてモデルを評価する。
Financial Agentは616の質問でツールの使用状況と複雑な推論を評価する。
FinEvalには、ゼロショット、チェーンオブ思想を含む5ショットを含む複数の評価設定があり、客観的および主観的基準を使用してモデルパフォーマンスを評価する。
以上の結果から、Claude 3.5-Sonnetは、ゼロショット設定下において、すべての金融ドメインカテゴリで72.9の最大重み付き平均スコアを達成している。
当社の作業は、中国の金融分野と密接に整合した総合的なベンチマークを提供する。
関連論文リスト
- Baichuan4-Finance Technical Report [12.097387122694432]
我々はBaichuan4-Financeシリーズを開発し、Baichuan4-Finance-Baseと、Baichuan4-Financeをアライメントした言語モデルを構築した。
本研究では,Baichuan4-Finance-Baseが一般能力を失うことなく,財務知識を習得することのできる,新たなドメイン自己拘束型トレーニング戦略を提案する。
ベイチュアン4-Financeを、広く使われている汎用データセットと2つの総合的な金融ベンチマークで評価する。
論文 参考訳(メタデータ) (2024-12-17T08:05:32Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。
我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。
また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - Financial Knowledge Large Language Model [4.599537455808687]
大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークであるIDEA-FinBenchを紹介する。
金融分野への一般LLMの迅速な適応を容易にするためのフレームワークであるIDEA-FinKERを提案する。
最後に LLM を利用した財務質問応答システム IDEA-FinQA を提案する。
論文 参考訳(メタデータ) (2024-06-29T08:26:49Z) - SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである
6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。
実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文 参考訳(メタデータ) (2024-04-29T19:04:35Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - InvestLM: A Large Language Model for Investment using Financial Domain
Instruction Tuning [19.22852919096857]
我々はLLaMA-65B(Touvron et al., 2023)に基づく新たな金融領域大言語モデルInvestLMを提案する。
より少ないアライメントにインスパイアされた我々は、小さなが多様な命令データセットを手作業でキュレートし、幅広い金融関連トピックをカバーした。
InvestLMは、財務文書の理解における強力な能力を示し、投資関連の質問に対する有益な回答を提供する。
論文 参考訳(メタデータ) (2023-09-15T02:59:31Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。