Fugu-MT 論文翻訳(概要): CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model

論文の概要: CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model

arxiv url: http://arxiv.org/abs/2311.05812v1
Date: Fri, 10 Nov 2023 01:12:03 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-13 16:25:22.960799
Title: CFBenchmark: Chinese Financial Assistant Benchmark for Large Language Model
Title（参考訳）: CFBenchmark: 大規模言語モデルのための中国の金融アシスタントベンチマーク
Authors: Yang Lei, Jiangtong Li, Ming Jiang, Junjie Hu, Dawei Cheng, Zhijun Ding, Changjun Jiang
Abstract要約: 大規模言語モデル(LLM)は金融分野において大きな可能性を証明している。本研究では,中国金融アシスタントのLCMの性能を評価するためのCFBenchmarkを紹介する。
参考スコア（独自算出の注目度）: 28.440603048111996
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated great potential in the financial domain. Thus, it becomes important to assess the performance of LLMs in the financial tasks. In this work, we introduce CFBenchmark, to evaluate the performance of LLMs for Chinese financial assistant. The basic version of CFBenchmark is designed to evaluate the basic ability in Chinese financial text processing from three aspects~(\emph{i.e.} recognition, classification, and generation) including eight tasks, and includes financial texts ranging in length from 50 to over 1,800 characters. We conduct experiments on several LLMs available in the literature with CFBenchmark-Basic, and the experimental results indicate that while some LLMs show outstanding performance in specific tasks, overall, there is still significant room for improvement in basic tasks of financial text processing with existing models. In the future, we plan to explore the advanced version of CFBenchmark, aiming to further explore the extensive capabilities of language models in more profound dimensions as a financial assistant in Chinese. Our codes are released at https://github.com/TongjiFinLab/CFBenchmark.
Abstract（参考訳）: 大規模言語モデル(LLM)は金融分野で大きな可能性を証明している。したがって、金融業務におけるllmの性能を評価することが重要となる。本研究では,中国金融アシスタントのLCMの性能を評価するためのCFBenchmarkを紹介する。 CFBenchmarkの基本バージョンは、8つのタスクを含む3つの側面~(\emph{i.e.}認識、分類、生成)から中国の金融テキスト処理の基本能力を評価するために設計されており、50文字から1,800文字を超える金融テキストを含んでいる。 CFBenchmark-Basic を用いていくつかの LLM 実験を行い、実験結果から、いくつかの LLM は特定のタスクにおいて優れた性能を示すが、全体としては、既存のモデルによる財務テキスト処理の基本的なタスクを改善するための重要な余地があることを示している。将来的には,中国の金融アシスタントとして,言語モデルの広範な能力をさらに深めることを目指して,cfbenchmarkの高度なバージョンを探求する予定です。私たちのコードはhttps://github.com/TongjiFinLab/CFBenchmarkで公開されています。

関連論文リスト

CDTP: A Large-Scale Chinese Data-Text Pair Dataset for Comprehensive Evaluation of Chinese LLMs [71.01843542502438]
我々は,中国語大言語モデル(CB-ECLLM)を評価するための総合的ベンチマークを提案する。 CB-ECLLMは、新たに構築された中国データテキストペア(CDTP)データセットに基づいている。 CDTPは700万以上のテキストペアで構成されており、それぞれが1つ以上の対応する3重テキストと、4つの重要なドメインにまたがる合計1500万の3重テキストで構成されている。
論文参考訳（メタデータ） (2025-10-07T15:33:52Z)
Finance Language Model Evaluation (FLaME) [5.904572835181286]
言語モデル(LM)は、中核的な自然言語処理(NLP)タスクで印象的な機能を示している。金融言語モデル評価のための総合ベンチマークスイート(FLaME)について紹介する。我々は,LMを「レアソン化強化型」LMに対して包括的に研究する最初の研究論文である。
論文参考訳（メタデータ） (2025-06-18T19:54:33Z)
MMLU-ProX: A Multilingual Benchmark for Advanced Large Language Model Evaluation [86.7047714187813]
MMLU-ProXは29の言語をカバーするベンチマークであり、英語のベンチマーク上に構築されている。それぞれの言語バージョンは11,829の同一の質問で構成されており、直接言語間比較を可能にする。効率的な評価ニーズを満たすため,言語毎の質問数は658件である。
論文参考訳（メタデータ） (2025-03-13T15:59:20Z)
Golden Touchstone: A Comprehensive Bilingual Benchmark for Evaluating Financial Large Language Models [22.594428755214356]
ゴールドタッチストーン(Golden Touchstone)は、金融用LLMの最初の総合的なバイリンガルベンチマークである。ベンチマークには、モデルの言語理解と生成能力を徹底的に評価することを目的とした、さまざまな財務タスクが含まれている。 Touchstone-GPTをオープンソースとして公開した。
論文参考訳（メタデータ） (2024-11-09T20:09:11Z)
CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文参考訳（メタデータ） (2024-07-02T14:34:36Z)
SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである 6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文参考訳（メタデータ） (2024-04-29T19:04:35Z)
CIF-Bench: A Chinese Instruction-Following Benchmark for Evaluating the Generalizability of Large Language Models [53.9835961434552]
本研究では,中国語に対する大規模言語モデル(LLM)の一般化性を評価するために,中国語命令追跡ベンチマーク(CIF-Bench)を導入する。 CIF-Benchは150のタスクと15,000の入力出力ペアで構成され、複雑な推論と中国の文化的ニュアンスをテストするためにネイティブスピーカーによって開発された。データ汚染を軽減するため、データセットの半分しか公開せず、残りは非公開であり、スコア分散を最小限に抑えるために多種多様な命令を導入する。
論文参考訳（メタデータ） (2024-02-20T16:02:12Z)
D\'olares or Dollars? Unraveling the Bilingual Prowess of Financial LLMs Between Spanish and English [67.48541936784501]
Tois'on de Oro は、英語とのスペイン語共同で、命令データセット、微調整 LLM 、および金融 LLM の評価ベンチマークを確立する最初のフレームワークである。 7つのタスクをカバーする15のデータセットから144万以上のスペイン語と英語のサンプルを含む、厳格にキュレートされたバイリンガル命令データセットを構築した。 FLARE-ESは9つのタスクをカバーする21のデータセットを持つ最初の総合的バイリンガル評価ベンチマークである。
論文参考訳（メタデータ） (2024-02-12T04:50:31Z)
DISC-FinLLM: A Chinese Financial Large Language Model based on Multiple Experts Fine-tuning [74.99318727786337]
金融大規模言語モデル(LLM)を構築するための多言語エキスパートファインチューニングフレームワークを提案する。 DISC-FIN-SFTという金融インストラクションチューニングデータセットを構築し、4つのカテゴリ(コンサルト、NLPタスク、コンピューティング、検索強化ジェネレーション)のインストラクションサンプルを含む。複数のベンチマークで評価した結果, 様々な財務シナリオにおいて, ベースラインモデルよりも優れた性能を示した。
論文参考訳（メタデータ） (2023-10-23T11:33:41Z)
Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing [22.754757518792395]
FinLMEvalは金融言語モデル評価のためのフレームワークである。本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文参考訳（メタデータ） (2023-10-19T11:43:15Z)
CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (2023-06-15T15:49:51Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
WHEN FLUE MEETS FLANG: Benchmarks and Large Pre-trained Language Model for Financial Domain [42.093876880881886]
ドメイン固有型金融LANGuageモデル(FLANG)を提案する。ファイナンシャルキーワードとフレーズを使用して、スパン境界目的とインフィリング目的ととともに、マスキングを改善する。私たちのモデル、コード、ベンチマークデータはGithubとHuggingfaceで公開されています。
論文参考訳（メタデータ） (2022-10-31T18:35:18Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。