論文の概要: CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models
- arxiv url: http://arxiv.org/abs/2407.02301v1
- Date: Tue, 2 Jul 2024 14:34:36 GMT
- ステータス: 処理完了
- システム内更新日: 2024-07-03 15:06:12.771240
- Title: CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models
- Title(参考訳): CFinBench: 大規模言語モデルのための総合的な中国の金融ベンチマーク
- Authors: Ying Nie, Binwei Yan, Tianyu Guo, Hao Liu, Haoyu Wang, Wei He, Binfan Zheng, Weihao Wang, Qiang Li, Weijian Sun, Yunhe Wang, Dacheng Tao,
- Abstract要約: CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
- 参考スコア(独自算出の注目度): 61.324062412648075
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have achieved remarkable performance on various NLP tasks, yet their potential in more challenging and domain-specific task, such as finance, has not been fully explored. In this paper, we present CFinBench: a meticulously crafted, the most comprehensive evaluation benchmark to date, for assessing the financial knowledge of LLMs under Chinese context. In practice, to better align with the career trajectory of Chinese financial practitioners, we build a systematic evaluation from 4 first-level categories: (1) Financial Subject: whether LLMs can memorize the necessary basic knowledge of financial subjects, such as economics, statistics and auditing. (2) Financial Qualification: whether LLMs can obtain the needed financial qualified certifications, such as certified public accountant, securities qualification and banking qualification. (3) Financial Practice: whether LLMs can fulfill the practical financial jobs, such as tax consultant, junior accountant and securities analyst. (4) Financial Law: whether LLMs can meet the requirement of financial laws and regulations, such as tax law, insurance law and economic law. CFinBench comprises 99,100 questions spanning 43 second-level categories with 3 question types: single-choice, multiple-choice and judgment. We conduct extensive experiments of 50 representative LLMs with various model size on CFinBench. The results show that GPT4 and some Chinese-oriented models lead the benchmark, with the highest average accuracy being 60.16%, highlighting the challenge presented by CFinBench. The dataset and evaluation code are available at https://cfinbench.github.io/.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々なNLPタスクにおいて顕著なパフォーマンスを達成しているが、金融など、より困難でドメイン固有のタスクにおけるその可能性については、十分に調査されていない。
本稿では,中国におけるLCMの財務的知識を評価するため,CFinBenchについて述べる。
実際には、中国の金融実践者のキャリア軌跡と整合性を高めるため、(1)金融対象:LCMが経済、統計、監査といった金融対象の必要な基礎知識を記憶できるかどうか、という4つの第一段階のカテゴリーから体系的な評価を構築する。
2 財務資格: LLMが公認会計士、証券資格及び銀行資格等の必要な財務資格を取得できるか否か。
3 金融慣行:LLMが税務コンサルタント、ジュニア会計士及び証券アナリスト等の実務的金融業務を遂行できるか否か。
4 金融法:LLMが税法、保険法及び経済法等の金融法及び規制の要件を満たすことができるか否か。
CFinBenchは、43の第二レベルカテゴリにまたがる99,100の質問から成っている。
CFinBench 上で, 様々なモデルサイズを持つ 50 個の LLM を広範囲に実験した。
その結果、GPT4といくつかの中国指向モデルがこのベンチマークをリードしており、平均精度は60.16%であり、CFinBenchが提示した課題を浮き彫りにしている。
データセットと評価コードはhttps://cfinbench.github.io/.com/で公開されている。
関連論文リスト
- Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。
我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。
また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - MTFinEval:A Multi-domain Chinese Financial Benchmark with Eurypalynous questions [19.755793171557123]
我々は LLM の経済に関する基本的な知識に焦点を当てた新しいベンチマーク MTFinEval をコンパイルした。
MTFinEvalは、経済学の6つの主要な分野から洗練され、より包括的な能力を反映する360の質問で構成されている。
実験の結果, MTFinEval では全ての LLM の性能が良くないことがわかった。
論文 参考訳(メタデータ) (2024-08-20T15:04:38Z) - Large Language Model in Financial Regulatory Interpretation [0.276240219662896]
本研究では、複雑な金融規制を解釈するための分析ツールとして、LLM(Large Language Models)の革新的利用について検討する。
主な目的は、動詞の蒸留や複雑な規制文書の抽出においてLLMを導く効果的なプロンプトを設計することである。
この新たなアプローチは、グローバル金融機関の金融報告・リスクマネジメントシステムにおける規制委任事項の実施を円滑化することを目的としている。
論文 参考訳(メタデータ) (2024-05-10T20:45:40Z) - SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである
6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。
実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文 参考訳(メタデータ) (2024-04-29T19:04:35Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Revolutionizing Finance with LLMs: An Overview of Applications and
Insights [47.11391223936608]
ChatGPTのような大規模言語モデル(LLM)はかなり進歩しており、様々な分野に適用されている。
これらのモデルは、財務報告の自動生成、市場のトレンド予測、投資家の感情分析、パーソナライズされた財務アドバイスの提供に利用されています。
論文 参考訳(メタデータ) (2024-01-22T01:06:17Z) - CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model [22.127509074325324]
大規模言語モデル(LLM)は金融分野において大きな可能性を証明している。
本研究では,中国金融アシスタントのLCMの性能を評価するためのCFBenchmarkを紹介する。
論文 参考訳(メタデータ) (2023-11-10T01:12:03Z) - Empowering Many, Biasing a Few: Generalist Credit Scoring through Large
Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。
クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。
そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文 参考訳(メタデータ) (2023-10-01T03:50:34Z) - FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for
Large Language Models [25.137098233579255]
FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。
FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。
その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
論文 参考訳(メタデータ) (2023-08-19T10:38:00Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。