論文の概要: FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for
Large Language Models
- arxiv url: http://arxiv.org/abs/2308.09975v1
- Date: Sat, 19 Aug 2023 10:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:38:33.874280
- Title: FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for
Large Language Models
- Title(参考訳): FinEval: 大規模言語モデルのための中国の金融ドメイン知識評価ベンチマーク
- Authors: Liwen Zhang, Weige Cai, Zhaowei Liu, Zhi Yang, Wei Dai, Yujie Liao,
Qianru Qin, Yifei Li, Xingyu Liu, Zhiqiang Liu, Zhoufan Zhu, Anbo Wu, Xin Guo
and Yun Chen
- Abstract要約: FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。
FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。
その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
- 参考スコア(独自算出の注目度): 25.137098233579255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated exceptional performance in
various natural language processing tasks, yet their efficacy in more
challenging and domain-specific tasks remains largely unexplored. This paper
presents FinEval, a benchmark specifically designed for the financial domain
knowledge in the LLMs. FinEval is a collection of high-quality multiple-choice
questions covering Finance, Economy, Accounting, and Certificate. It includes
4,661 questions spanning 34 different academic subjects. To ensure a
comprehensive model performance evaluation, FinEval employs a range of prompt
types, including zero-shot and few-shot prompts, as well as answer-only and
chain-of-thought prompts. Evaluating state-of-the-art Chinese and English LLMs
on FinEval, the results show that only GPT-4 achieved an accuracy close to 70%
in different prompt settings, indicating significant growth potential for LLMs
in the financial domain knowledge. Our work offers a more comprehensive
financial knowledge evaluation benchmark, utilizing data of mock exams and
covering a wide range of evaluated LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)は、様々な自然言語処理タスクにおいて例外的な性能を示しているが、より困難でドメイン固有のタスクにおけるその効果はほとんど未調査のままである。
本稿では,LLMにおける金融分野知識のためのベンチマークであるFinEvalについて述べる。
FinEvalは、財務、経済、会計、認証に関する高品質な多重選択質問のコレクションである。
4,661 の質問があり、34 の異なる教科にまたがっている。
総合的なモデルパフォーマンス評価を実現するため、ファインバルはゼロショットプロンプトや少数ショットプロンプト、回答のみのプロンプトやチェーンオブマインドプロンプトなど、さまざまなプロンプトタイプを採用している。
その結果、FinEval上での中国語と英語のLLMの評価は、GPT-4のみが異なるプロンプト設定で70%近い精度を達成し、金融分野の知識においてLLMが著しく成長する可能性が示唆された。
我々の研究は、より包括的な財務知識評価ベンチマークを提供し、模擬試験のデータを活用し、幅広い評価 LLM をカバーしている。
関連論文リスト
- Baichuan4-Finance Technical Report [12.097387122694432]
我々はBaichuan4-Financeシリーズを開発し、Baichuan4-Finance-Baseと、Baichuan4-Financeをアライメントした言語モデルを構築した。
本研究では,Baichuan4-Finance-Baseが一般能力を失うことなく,財務知識を習得することのできる,新たなドメイン自己拘束型トレーニング戦略を提案する。
ベイチュアン4-Financeを、広く使われている汎用データセットと2つの総合的な金融ベンチマークで評価する。
論文 参考訳(メタデータ) (2024-12-17T08:05:32Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。
我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。
また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - Financial Knowledge Large Language Model [4.599537455808687]
大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークであるIDEA-FinBenchを紹介する。
金融分野への一般LLMの迅速な適応を容易にするためのフレームワークであるIDEA-FinKERを提案する。
最後に LLM を利用した財務質問応答システム IDEA-FinQA を提案する。
論文 参考訳(メタデータ) (2024-06-29T08:26:49Z) - SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである
6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。
実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文 参考訳(メタデータ) (2024-04-29T19:04:35Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - InvestLM: A Large Language Model for Investment using Financial Domain
Instruction Tuning [19.22852919096857]
我々はLLaMA-65B(Touvron et al., 2023)に基づく新たな金融領域大言語モデルInvestLMを提案する。
より少ないアライメントにインスパイアされた我々は、小さなが多様な命令データセットを手作業でキュレートし、幅広い金融関連トピックをカバーした。
InvestLMは、財務文書の理解における強力な能力を示し、投資関連の質問に対する有益な回答を提供する。
論文 参考訳(メタデータ) (2023-09-15T02:59:31Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。