論文の概要: FLAME: Financial Large-Language Model Assessment and Metrics Evaluation
- arxiv url: http://arxiv.org/abs/2501.06211v1
- Date: Fri, 03 Jan 2025 09:17:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-19 08:09:30.541492
- Title: FLAME: Financial Large-Language Model Assessment and Metrics Evaluation
- Title(参考訳): FLAME:金融大言語モデル評価とメトリクス評価
- Authors: Jiayu Guo, Yu Guo, Martha Li, Songtao Tan,
- Abstract要約: 本稿では,中国における総合的なLLM評価システムであるFLAMEを紹介する。
FLAME-Cerは14種類の認証ファイナンスをカバーしており、合計で約16,000の慎重に選択された質問がある。
FLAME-Sceは10の主要な金融ビジネスシナリオ、21の二次金融ビジネスシナリオ、100近い第三次金融アプリケーションタスクの包括的な評価セットで構成されている。
- 参考スコア(独自算出の注目度): 2.6420673380196824
- License:
- Abstract: LLMs have revolutionized NLP and demonstrated potential across diverse domains. More and more financial LLMs have been introduced for finance-specific tasks, yet comprehensively assessing their value is still challenging. In this paper, we introduce FLAME, a comprehensive financial LLMs evaluation system in Chinese, which includes two core evaluation benchmarks: FLAME-Cer and FLAME-Sce. FLAME-Cer covers 14 types of authoritative financial certifications, including CPA, CFA, and FRM, with a total of approximately 16,000 carefully selected questions. All questions have been manually reviewed to ensure accuracy and representativeness. FLAME-Sce consists of 10 primary core financial business scenarios, 21 secondary financial business scenarios, and a comprehensive evaluation set of nearly 100 tertiary financial application tasks. We evaluate 6 representative LLMs, including GPT-4o, GLM-4, ERNIE-4.0, Qwen2.5, XuanYuan3, and the latest Baichuan4-Finance, revealing Baichuan4-Finance excels other LLMs in most tasks. By establishing a comprehensive and professional evaluation system, FLAME facilitates the advancement of financial LLMs in Chinese contexts. Instructions for participating in the evaluation are available on GitHub: https://github.com/FLAME-ruc/FLAME.
- Abstract(参考訳): LLMはNLPに革命を起こし、様々な領域に可能性を示した。
金融特化タスクには、金融LLMの導入がますます進んでいるが、その価値を総合的に評価することは依然として困難である。
本稿では、FLAME-CerとFLAME-Sceの2つのコア評価ベンチマークを含む、中国語の総合的な金融LLM評価システムであるFLAMEを紹介する。
FLAME-Cerは、CPA、CFA、FRMを含む14種類の認証ファイナンスをカバーしており、合計で約16,000の慎重に選択された質問がある。
すべての質問は、正確さと代表性を保証するために手動でレビューされている。
FLAME-Sceは10の主要な金融ビジネスシナリオ、21の二次金融ビジネスシナリオ、100近い第三次金融アプリケーションタスクの包括的な評価セットで構成されている。
GPT-4o, GLM-4, ERNIE-4.0, Qwen2.5, XuanYuan3, そして最新のBaichuan4-Financeを含む6つの代表的なLCMを評価し、Baichuan4-Financeが他のLCMよりも多くのタスクで優れていることを示した。
FLAMEは、総合的かつ専門的な評価システムを確立することにより、中国の文脈における金融LLMの進展を促進する。
評価に参加するためのインストラクションはGitHubで公開されている。
関連論文リスト
- Baichuan4-Finance Technical Report [12.097387122694432]
我々はBaichuan4-Financeシリーズを開発し、Baichuan4-Finance-Baseと、Baichuan4-Financeをアライメントした言語モデルを構築した。
本研究では,Baichuan4-Finance-Baseが一般能力を失うことなく,財務知識を習得することのできる,新たなドメイン自己拘束型トレーニング戦略を提案する。
ベイチュアン4-Financeを、広く使われている汎用データセットと2つの総合的な金融ベンチマークで評価する。
論文 参考訳(メタデータ) (2024-12-17T08:05:32Z) - Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。
我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。
また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文 参考訳(メタデータ) (2024-08-20T16:15:28Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである
6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。
実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文 参考訳(メタデータ) (2024-04-29T19:04:35Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple
Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。
DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。
複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-23T11:33:41Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。