論文の概要: FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for
Large Language Models
- arxiv url: http://arxiv.org/abs/2308.09975v1
- Date: Sat, 19 Aug 2023 10:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:38:33.874280
- Title: FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for
Large Language Models
- Title(参考訳): FinEval: 大規模言語モデルのための中国の金融ドメイン知識評価ベンチマーク
- Authors: Liwen Zhang, Weige Cai, Zhaowei Liu, Zhi Yang, Wei Dai, Yujie Liao,
Qianru Qin, Yifei Li, Xingyu Liu, Zhiqiang Liu, Zhoufan Zhu, Anbo Wu, Xin Guo
and Yun Chen
- Abstract要約: FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。
FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。
その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
- 参考スコア(独自算出の注目度): 25.137098233579255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated exceptional performance in
various natural language processing tasks, yet their efficacy in more
challenging and domain-specific tasks remains largely unexplored. This paper
presents FinEval, a benchmark specifically designed for the financial domain
knowledge in the LLMs. FinEval is a collection of high-quality multiple-choice
questions covering Finance, Economy, Accounting, and Certificate. It includes
4,661 questions spanning 34 different academic subjects. To ensure a
comprehensive model performance evaluation, FinEval employs a range of prompt
types, including zero-shot and few-shot prompts, as well as answer-only and
chain-of-thought prompts. Evaluating state-of-the-art Chinese and English LLMs
on FinEval, the results show that only GPT-4 achieved an accuracy close to 70%
in different prompt settings, indicating significant growth potential for LLMs
in the financial domain knowledge. Our work offers a more comprehensive
financial knowledge evaluation benchmark, utilizing data of mock exams and
covering a wide range of evaluated LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)は、様々な自然言語処理タスクにおいて例外的な性能を示しているが、より困難でドメイン固有のタスクにおけるその効果はほとんど未調査のままである。
本稿では,LLMにおける金融分野知識のためのベンチマークであるFinEvalについて述べる。
FinEvalは、財務、経済、会計、認証に関する高品質な多重選択質問のコレクションである。
4,661 の質問があり、34 の異なる教科にまたがっている。
総合的なモデルパフォーマンス評価を実現するため、ファインバルはゼロショットプロンプトや少数ショットプロンプト、回答のみのプロンプトやチェーンオブマインドプロンプトなど、さまざまなプロンプトタイプを採用している。
その結果、FinEval上での中国語と英語のLLMの評価は、GPT-4のみが異なるプロンプト設定で70%近い精度を達成し、金融分野の知識においてLLMが著しく成長する可能性が示唆された。
我々の研究は、より包括的な財務知識評価ベンチマークを提供し、模擬試験のデータを活用し、幅広い評価 LLM をカバーしている。
関連論文リスト
- The FinBen: An Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、金融分野におけるLLMの能力を徹底的に評価するために設計された、初めての包括的なオープンソース評価ベンチマークである。
FinBenは、23の財務タスクにわたる35のデータセットを含み、Cattell-Horn-Carroll理論にインスパイアされた3つの難易度に分類されている。
GPT-4, ChatGPT, そして最新のGeminiを含む15の代表的なLCMを評価した結果, 金融分野におけるその強みと限界についての知見が得られた。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - A Survey of Large Language Models in Finance (FinLLMs) [10.195778659105626]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクで顕著な機能を示している。
この調査は、FinLLMの歴史、テクニック、パフォーマンス、機会と課題を含む、包括的な概要を提供する。
ファイナンスにおけるAI研究を支援するために、アクセス可能なデータセットと評価ベンチマークのコレクションをGitHubにコンパイルします。
論文 参考訳(メタデータ) (2024-02-04T02:06:57Z) - Revolutionizing Finance with LLMs: An Overview of Applications and
Insights [47.11391223936608]
ChatGPTのような大規模言語モデル(LLM)はかなり進歩しており、様々な分野に適用されている。
これらのモデルは、財務報告の自動生成、市場のトレンド予測、投資家の感情分析、パーソナライズされた財務アドバイスの提供に利用されています。
論文 参考訳(メタデータ) (2024-01-22T01:06:17Z) - DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple
Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。
DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。
複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-23T11:33:41Z) - Is ChatGPT a Financial Expert? Evaluating Language Models on Financial
Natural Language Processing [22.754757518792395]
FinLMEvalは金融言語モデル評価のためのフレームワークである。
本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文 参考訳(メタデータ) (2023-10-19T11:43:15Z) - Can GPT models be Financial Analysts? An Evaluation of ChatGPT and GPT-4
on mock CFA Exams [26.318005637849915]
本研究では,Large Language Models (LLM) の金銭的推論能力を評価することを目的とした。
チャータード・ファイナンシャル・アナリスト(CFA)プログラムの模擬試験問題を利用して、ChatGPTとGPT-4の総合的な評価を行う。
本稿では,モデルの性能と限界を詳細に分析し,CFA試験に合格する確率を推定する。
論文 参考訳(メタデータ) (2023-10-12T19:28:57Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。