Fugu-MT 論文翻訳(概要): FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models

論文の概要: FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models

arxiv url: http://arxiv.org/abs/2308.09975v1
Date: Sat, 19 Aug 2023 10:38:00 GMT
ステータス: 翻訳完了
システム内更新日: 2023-08-22 18:38:33.874280
Title: FinEval: A Chinese Financial Domain Knowledge Evaluation Benchmark for Large Language Models
Title（参考訳）: FinEval: 大規模言語モデルのための中国の金融ドメイン知識評価ベンチマーク
Authors: Liwen Zhang, Weige Cai, Zhaowei Liu, Zhi Yang, Wei Dai, Yujie Liao, Qianru Qin, Yifei Li, Xingyu Liu, Zhiqiang Liu, Zhoufan Zhu, Anbo Wu, Xin Guo and Yun Chen
Abstract要約: FinEvalは、大規模言語モデル(LLM)における金融ドメイン知識のベンチマークである。 FinEvalには、ゼロショットプロンプトや少数ショットプロンプトなど、さまざまなプロンプトタイプが採用されている。その結果, GPT-4の精度は, 異なるプロンプト設定で70%に近かった。
参考スコア（独自算出の注目度）: 25.137098233579255
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models (LLMs) have demonstrated exceptional performance in various natural language processing tasks, yet their efficacy in more challenging and domain-specific tasks remains largely unexplored. This paper presents FinEval, a benchmark specifically designed for the financial domain knowledge in the LLMs. FinEval is a collection of high-quality multiple-choice questions covering Finance, Economy, Accounting, and Certificate. It includes 4,661 questions spanning 34 different academic subjects. To ensure a comprehensive model performance evaluation, FinEval employs a range of prompt types, including zero-shot and few-shot prompts, as well as answer-only and chain-of-thought prompts. Evaluating state-of-the-art Chinese and English LLMs on FinEval, the results show that only GPT-4 achieved an accuracy close to 70% in different prompt settings, indicating significant growth potential for LLMs in the financial domain knowledge. Our work offers a more comprehensive financial knowledge evaluation benchmark, utilizing data of mock exams and covering a wide range of evaluated LLMs.
Abstract（参考訳）: 大規模言語モデル(llm)は、様々な自然言語処理タスクにおいて例外的な性能を示しているが、より困難でドメイン固有のタスクにおけるその効果はほとんど未調査のままである。本稿では,LLMにおける金融分野知識のためのベンチマークであるFinEvalについて述べる。 FinEvalは、財務、経済、会計、認証に関する高品質な多重選択質問のコレクションである。 4,661 の質問があり、34 の異なる教科にまたがっている。総合的なモデルパフォーマンス評価を実現するため、ファインバルはゼロショットプロンプトや少数ショットプロンプト、回答のみのプロンプトやチェーンオブマインドプロンプトなど、さまざまなプロンプトタイプを採用している。その結果、FinEval上での中国語と英語のLLMの評価は、GPT-4のみが異なるプロンプト設定で70%近い精度を達成し、金融分野の知識においてLLMが著しく成長する可能性が示唆された。我々の研究は、より包括的な財務知識評価ベンチマークを提供し、模擬試験のデータを活用し、幅広い評価 LLM をカバーしている。

関連論文リスト

The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems [54.12165004393043]
FinMMEval 2026は、財務的理解、推論、意思決定にまたがる3つの相互接続タスクを提供する。このラボは、堅牢で透明でグローバルに包括的な金融AIシステムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2026-02-11T14:14:06Z)
UniFinEval: Towards Unified Evaluation of Financial Multimodal Models across Text, Images and Videos [22.530796761115766]
我々は、情報密度の高い金融環境のための最初の統合マルチモーダルベンチマークUniFinEvalを提案する。 UniFinEvalは、現実世界の金融システムに根ざした5つの中核的な金融シナリオを体系的に構築する。 Gemini-3-pro-previewは、全体的なパフォーマンスは最高だが、財務の専門家と比べて大きな差がある。
論文参考訳（メタデータ） (2026-01-09T10:15:32Z)
FinTrust: A Comprehensive Benchmark of Trustworthiness Evaluation in Finance Domain [54.06289302468199]
FinTrust は金融アプリケーションにおける LLM の信頼性を評価するためのベンチマークである。 o4-miniのようなプロプライエタリなモデルは、安全性など、ほとんどのタスクでパフォーマンスに優れています。 DeepSeek-V3のようなオープンソースモデルは、業界レベルの公正さのような特定の分野に利点がある。
論文参考訳（メタデータ） (2025-10-17T01:45:49Z)
FinMMR: Make Financial Numerical Reasoning More Multimodal, Comprehensive, and Challenging [12.897569424944107]
FinMMRは、金融数値推論タスクにおけるマルチモーダル大言語モデル(MLLM)の推論能力を評価するために設計された、新しいバイリンガルベンチマークである。 FinMMRは、テーブル、バーチャート、オーナシップ構造チャートを含む14のカテゴリにまたがる4.3Kの質問と8.7Kのイメージで構成されている。
論文参考訳（メタデータ） (2025-08-06T16:51:09Z)
FinGAIA: A Chinese Benchmark for AI Agents in Real-World Financial Domain [17.682962451679312]
FinGAIAは7つの主要な金融サブドメインにまたがる、細心の注意を払って407のタスクで構成されている。最高成績のエージェントであるChatGPTは48.9%の精度を達成し、非専門職よりも優れているが、財務の専門家を35パーセント以上遅れている。
論文参考訳（メタデータ） (2025-07-23T04:19:16Z)
FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。 FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文参考訳（メタデータ） (2025-05-18T11:47:55Z)
KFinEval-Pilot: A Comprehensive Benchmark Suite for Korean Financial Language Understanding [6.3604109210772934]
KFinEval-Pilotは、韓国の金融ドメインで大規模言語モデル(LLM)を評価するために設計されたベンチマークスイートである。金融知識、法的推論、金融毒性の3つの重要な領域に1,000以上のキュレートされた質問が含まれている。
論文参考訳（メタデータ） (2025-04-17T00:12:58Z)
Baichuan4-Finance Technical Report [12.097387122694432]
我々はBaichuan4-Financeシリーズを開発し、Baichuan4-Finance-Baseと、Baichuan4-Financeをアライメントした言語モデルを構築した。本研究では,Baichuan4-Finance-Baseが一般能力を失うことなく,財務知識を習得することのできる,新たなドメイン自己拘束型トレーニング戦略を提案する。ベイチュアン4-Financeを、広く使われている汎用データセットと2つの総合的な金融ベンチマークで評価する。
論文参考訳（メタデータ） (2024-12-17T08:05:32Z)
Open-FinLLMs: Open Multimodal Large Language Models for Financial Applications [90.67346776473241]
大規模言語モデル(LLM)は高度な金融アプリケーションを持っているが、十分な財務知識がなく、テーブルや時系列データといったマルチモーダル入力に関わるタスクに苦労することが多い。我々は、総合的な財務知識をテキスト、テーブル、時系列データに組み込む一連の金融LLMであるtextitOpen-FinLLMsを紹介する。また、複雑な財務データ型を扱うために、1.43Mの画像テキスト命令で訓練されたマルチモーダルLLMであるFinLLaVAについても紹介する。
論文参考訳（メタデータ） (2024-08-20T16:15:28Z)
CFinBench: A Comprehensive Chinese Financial Benchmark for Large Language Models [61.324062412648075]
CFinBenchは、中国の文脈下での大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークである。この質問は、43の第二級カテゴリーにまたがる99,100の質問で構成されており、3つの質問タイプがある: シングルチョイス、マルチチョイス、そして判断である。結果は、GPT4といくつかの中国指向モデルがベンチマークをリードし、平均精度は60.16%であることを示している。
論文参考訳（メタデータ） (2024-07-02T14:34:36Z)
Financial Knowledge Large Language Model [4.599537455808687]
大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークであるIDEA-FinBenchを紹介する。金融分野への一般LLMの迅速な適応を容易にするためのフレームワークであるIDEA-FinKERを提案する。最後に LLM を利用した財務質問応答システム IDEA-FinQA を提案する。
論文参考訳（メタデータ） (2024-06-29T08:26:49Z)
SuperCLUE-Fin: Graded Fine-Grained Analysis of Chinese LLMs on Diverse Financial Tasks and Applications [17.34850312139675]
SC-Finは中国原産の金融大規模言語モデル(FLM)に適した先駆的評価フレームワークである 6つの金融アプリケーションドメインと25の専門タスクにわたるFLMを評価する。実生活シナリオを模倣するマルチターンでオープンな会話を用いて、SC-Finは様々な基準に基づいてモデルを測定する。
論文参考訳（メタデータ） (2024-04-29T19:04:35Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
A Survey of Large Language Models in Finance (FinLLMs) [10.195778659105626]
大規模言語モデル(LLM)は、さまざまな自然言語処理(NLP)タスクで顕著な機能を示している。この調査は、FinLLMの歴史、テクニック、パフォーマンス、機会と課題を含む、包括的な概要を提供する。ファイナンスにおけるAI研究を支援するために、アクセス可能なデータセットと評価ベンチマークのコレクションをGitHubにコンパイルします。
論文参考訳（メタデータ） (2024-02-04T02:06:57Z)
Revolutionizing Finance with LLMs: An Overview of Applications and Insights [47.11391223936608]
ChatGPTのような大規模言語モデル(LLM)はかなり進歩しており、様々な分野に適用されている。これらのモデルは、財務報告の自動生成、市場のトレンド予測、投資家の感情分析、パーソナライズされた財務アドバイスの提供に利用されています。
論文参考訳（メタデータ） (2024-01-22T01:06:17Z)
Is ChatGPT a Financial Expert? Evaluating Language Models on Financial Natural Language Processing [22.754757518792395]
FinLMEvalは金融言語モデル評価のためのフレームワークである。本研究では,エンコーダのみの言語モデルとデコーダのみの言語モデルの性能を比較した。
論文参考訳（メタデータ） (2023-10-19T11:43:15Z)
CMMLU: Measuring massive multitask language understanding in Chinese [133.70911295934746]
本稿では, 自然科学, 社会科学, 工学, 人文科学など, さまざまな分野をカバーする総合的な中国のベンチマークを紹介する。 CMMLUは、中国語の文脈における大きな言語モデルの知識と推論能力の評価におけるギャップを埋める。
論文参考訳（メタデータ） (2023-06-15T15:49:51Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文参考訳（メタデータ） (2021-09-01T00:08:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。