論文の概要: FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for
Large Language Models
- arxiv url: http://arxiv.org/abs/2308.09975v1
- Date: Sat, 19 Aug 2023 10:38:00 GMT
- ステータス: 処理完了
- システム内更新日: 2023-08-22 18:38:33.874280
- Title: FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for
Large Language Models
- Title(参考訳): FinEval: 大規模言語モデルのための中国の金融ドメイン知識評価ベンチマーク
- Authors: Liwen Zhang, Weige Cai, Zhaowei Liu, Zhi Yang, Wei Dai, Yujie Liao,
Qianru Qin, Yifei Li, Xingyu Liu, Zhiqiang Liu, Zhoufan Zhu, Anbo Wu, Xin Guo
and Yun Chen
- Abstract要約: FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。
FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。
その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
- 参考スコア(独自算出の注目度): 25.137098233579255
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated exceptional performance in
various natural language processing tasks, yet their efficacy in more
challenging and domain-specific tasks remains largely unexplored. This paper
presents FinEval, a benchmark specifically designed for the financial domain
knowledge in the LLMs. FinEval is a collection of high-quality multiple-choice
questions covering Finance, Economy, Accounting, and Certificate. It includes
4,661 questions spanning 34 different academic subjects. To ensure a
comprehensive model performance evaluation, FinEval employs a range of prompt
types, including zero-shot and few-shot prompts, as well as answer-only and
chain-of-thought prompts. Evaluating state-of-the-art Chinese and English LLMs
on FinEval, the results show that only GPT-4 achieved an accuracy close to 70%
in different prompt settings, indicating significant growth potential for LLMs
in the financial domain knowledge. Our work offers a more comprehensive
financial knowledge evaluation benchmark, utilizing data of mock exams and
covering a wide range of evaluated LLMs.
- Abstract(参考訳): 大規模言語モデル(llm)は、様々な自然言語処理タスクにおいて例外的な性能を示しているが、より困難でドメイン固有のタスクにおけるその効果はほとんど未調査のままである。
本稿では,LLMにおける金融分野知識のためのベンチマークであるFinEvalについて述べる。
FinEvalは、財務、経済、会計、認証に関する高品質な多重選択質問のコレクションである。
4,661 の質問があり、34 の異なる教科にまたがっている。
総合的なモデルパフォーマンス評価を実現するため、ファインバルはゼロショットプロンプトや少数ショットプロンプト、回答のみのプロンプトやチェーンオブマインドプロンプトなど、さまざまなプロンプトタイプを採用している。
その結果、FinEval上での中国語と英語のLLMの評価は、GPT-4のみが異なるプロンプト設定で70%近い精度を達成し、金融分野の知識においてLLMが著しく成長する可能性が示唆された。
我々の研究は、より包括的な財務知識評価ベンチマークを提供し、模擬試験のデータを活用し、幅広い評価 LLM をカバーしている。
関連論文リスト
- Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。
我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。
また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - Financial Knowledge Large Language Model [4.599537455808687]
大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークであるIDEA-FinBenchを紹介する。
金融分野への一般LLMの迅速な適応を容易にするためのフレームワークであるIDEA-FinKERを提案する。
最後に LLM を利用した財務質問応答システム IDEA-FinQA を提案する。
論文 参考訳(メタデータ) (2024-06-29T08:26:49Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - A Survey of Large Language Models in Finance (FinLLMs) [10.195778659105626]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクで顕著な機能を示している。
この調査は、FinLLMの歴史、テクニック、パフォーマンス、機会と課題を含む、包括的な概要を提供する。
ファイナンスにおけるAI研究を支援するために、アクセス可能なデータセットと評価ベンチマークのコレクションをGitHubにコンパイルします。
論文 参考訳(メタデータ) (2024-02-04T02:06:57Z) - Revolutionizing Finance with LLMs: An Overview of Applications and
Insights [47.11391223936608]
ChatGPTのような大規模言語モデル(LLM)はかなり進歩しており、様々な分野に適用されている。
これらのモデルは、財務報告の自動生成、市場のトレンド予測、投資家の感情分析、パーソナライズされた財務アドバイスの提供に利用されています。
論文 参考訳(メタデータ) (2024-01-22T01:06:17Z) - Is ChatGPT a Financial Expert? Evaluating Language Models on Financial
Natural Language Processing [22.754757518792395]
FinLMEvalは金融言語モデル評価のためのフレームワークである。
本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文 参考訳(メタデータ) (2023-10-19T11:43:15Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。