論文の概要: CFBenchmark: Chinese Financial Assistant Benchmark for Large Language
Model
- arxiv url: http://arxiv.org/abs/2311.05812v1
- Date: Fri, 10 Nov 2023 01:12:03 GMT
- ステータス: 処理完了
- システム内更新日: 2023-11-13 16:25:22.960799
- Title: CFBenchmark: Chinese Financial Assistant Benchmark for Large Language
Model
- Title(参考訳): CFBenchmark: 大規模言語モデルのための中国の金融アシスタントベンチマーク
- Authors: Yang Lei, Jiangtong Li, Ming Jiang, Junjie Hu, Dawei Cheng, Zhijun
Ding, Changjun Jiang
- Abstract要約: 大規模言語モデル(LLM)は金融分野において大きな可能性を証明している。
本研究では,中国金融アシスタントのLCMの性能を評価するためのCFBenchmarkを紹介する。
- 参考スコア(独自算出の注目度): 28.440603048111996
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have demonstrated great potential in the
financial domain. Thus, it becomes important to assess the performance of LLMs
in the financial tasks. In this work, we introduce CFBenchmark, to evaluate the
performance of LLMs for Chinese financial assistant. The basic version of
CFBenchmark is designed to evaluate the basic ability in Chinese financial text
processing from three aspects~(\emph{i.e.} recognition, classification, and
generation) including eight tasks, and includes financial texts ranging in
length from 50 to over 1,800 characters. We conduct experiments on several LLMs
available in the literature with CFBenchmark-Basic, and the experimental
results indicate that while some LLMs show outstanding performance in specific
tasks, overall, there is still significant room for improvement in basic tasks
of financial text processing with existing models. In the future, we plan to
explore the advanced version of CFBenchmark, aiming to further explore the
extensive capabilities of language models in more profound dimensions as a
financial assistant in Chinese. Our codes are released at
https://github.com/TongjiFinLab/CFBenchmark.
- Abstract(参考訳): 大規模言語モデル(LLM)は金融分野で大きな可能性を証明している。
したがって、金融業務におけるllmの性能を評価することが重要となる。
本研究では,中国金融アシスタントのLCMの性能を評価するためのCFBenchmarkを紹介する。
CFBenchmarkの基本バージョンは、8つのタスクを含む3つの側面~(\emph{i.e.}認識、分類、生成)から中国の金融テキスト処理の基本能力を評価するために設計されており、50文字から1,800文字を超える金融テキストを含んでいる。
CFBenchmark-Basic を用いていくつかの LLM 実験を行い、実験結果から、いくつかの LLM は特定のタスクにおいて優れた性能を示すが、全体としては、既存のモデルによる財務テキスト処理の基本的なタスクを改善するための重要な余地があることを示している。
将来的には,中国の金融アシスタントとして,言語モデルの広範な能力をさらに深めることを目指して,cfbenchmarkの高度なバージョンを探求する予定です。
私たちのコードはhttps://github.com/TongjiFinLab/CFBenchmarkで公開されています。
関連論文リスト
- CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the
Generalizability of Large Language Models [74.08927882382943]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。
CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。
28個のLCMを評価したところ,最高のモデルでは52.9%に過ぎず,顕著な性能差が認められた。
論文 参考訳(メタデータ) (2024-02-20T16:02:12Z) - D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs
Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。
7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。
FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文 参考訳(メタデータ) (2024-02-12T04:50:31Z) - AlignBench: Benchmarking Chinese Alignment of Large Language Models [100.30878214336444]
中国語大言語モデルのアライメントを評価するための総合ベンチマークであるAlignBenchを紹介する。
筆者らのベンチマークでは,多次元LCM-as-JudgeとChain-of-Thoughtを用いて,説明と最終評価を評価として用いた。
GPT-4の評価能力の95%を回復する中国専用評価器LLMであるCritiqueLLMによるAlignBenchの評価を報告する。
論文 参考訳(メタデータ) (2023-11-30T17:41:30Z) - DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple
Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。
DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。
複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文 参考訳(メタデータ) (2023-10-23T11:33:41Z) - Is ChatGPT a Financial Expert? Evaluating Language Models on Financial
Natural Language Processing [22.754757518792395]
FinLMEvalは金融言語モデル評価のためのフレームワークである。
本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文 参考訳(メタデータ) (2023-10-19T11:43:15Z) - FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for
Large Language Models [25.137098233579255]
FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。
FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。
その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
論文 参考訳(メタデータ) (2023-08-19T10:38:00Z) - CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。
CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文 参考訳(メタデータ) (2023-06-15T15:49:51Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model
for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。
ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。
私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文 参考訳(メタデータ) (2022-10-31T18:35:18Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。