論文の概要: CFBenchmark: Chinese Financial Assistant Benchmark for Large Language
Model
- arxiv url: http://arxiv.org/abs/2311.05812v1
- Date: Fri, 10 Nov 2023 01:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:25:22.960799
- Title: CFBenchmark: Chinese Financial Assistant Benchmark for Large Language
Model
- Title(参考訳): CFBenchmark: 大規模言語モデルのための中国の金融アシスタントベンチマーク
- Authors: Yang Lei, Jiangtong Li, Ming Jiang, Junjie Hu, Dawei Cheng, Zhijun
Ding, Changjun Jiang
- Abstract要約: 大規模言語モデル(LLM)は金融分野において大きな可能性を証明している。
本研究では,中国金融アシスタントのLCMの性能を評価するためのCFBenchmarkを紹介する。
- 参考スコア(独自算出の注目度): 28.440603048111996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated great potential in the
financial domain. Thus, it becomes important to assess the performance of LLMs
in the financial tasks. In this work, we introduce CFBenchmark, to evaluate the
performance of LLMs for Chinese financial assistant. The basic version of
CFBenchmark is designed to evaluate the basic ability in Chinese financial text
processing from three aspects~(\emph{i.e.} recognition, classification, and
generation) including eight tasks, and includes financial texts ranging in
length from 50 to over 1,800 characters. We conduct experiments on several LLMs
available in the literature with CFBenchmark-Basic, and the experimental
results indicate that while some LLMs show outstanding performance in specific
tasks, overall, there is still significant room for improvement in basic tasks
of financial text processing with existing models. In the future, we plan to
explore the advanced version of CFBenchmark, aiming to further explore the
extensive capabilities of language models in more profound dimensions as a
financial assistant in Chinese. Our codes are released at
https://github.com/TongjiFinLab/CFBenchmark.
- Abstract(参考訳): 大規模言語モデル(LLM)は金融分野で大きな可能性を証明している。
したがって、金融業務におけるllmの性能を評価することが重要となる。
本研究では,中国金融アシスタントのLCMの性能を評価するためのCFBenchmarkを紹介する。
CFBenchmarkの基本バージョンは、8つのタスクを含む3つの側面~(\emph{i.e.}認識、分類、生成)から中国の金融テキスト処理の基本能力を評価するために設計されており、50文字から1,800文字を超える金融テキストを含んでいる。
CFBenchmark-Basic を用いていくつかの LLM 実験を行い、実験結果から、いくつかの LLM は特定のタスクにおいて優れた性能を示すが、全体としては、既存のモデルによる財務テキスト処理の基本的なタスクを改善するための重要な余地があることを示している。
将来的には,中国の金融アシスタントとして,言語モデルの広範な能力をさらに深めることを目指して,cfbenchmarkの高度なバージョンを探求する予定です。
私たちのコードはhttps://github.com/TongjiFinLab/CFBenchmarkで公開されています。
関連論文リスト
- Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models [22.594428755214356]
ゴールドタッチストーン(Golden Touchstone)は、金融用LLMの最初の総合的なバイリンガルベンチマークである。
ベンチマークには、モデルの言語理解と生成能力を徹底的に評価することを目的とした、さまざまな財務タスクが含まれている。
Touchstone-GPTをオープンソースとして公開した。
論文 参考訳(メタデータ) (2024-11-09T20:09:11Z) - CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。
この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。
結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文 参考訳(メタデータ) (2024-07-02T14:34:36Z) - SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである
6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。
実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文 参考訳(メタデータ) (2024-04-29T19:04:35Z) - CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple
Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。
DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。
複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-23T11:33:41Z) - Is ChatGPT a Financial Expert? Evaluating Language Models on Financial
Natural Language Processing [22.754757518792395]
FinLMEvalは金融言語モデル評価のためのフレームワークである。
本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文 参考訳(メタデータ) (2023-10-19T11:43:15Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model
for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。
ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。
私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文 参考訳(メタデータ) (2022-10-31T18:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。