Fugu-MT 論文翻訳(概要): FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning

論文の概要: FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning

arxiv url: http://arxiv.org/abs/2506.21591v2
Date: Mon, 30 Jun 2025 03:42:45 GMT
ステータス: 翻訳完了
システム内更新日: 2025-07-01 15:08:39.850917
Title: FinEval-KR: A Financial Domain Evaluation Framework for Large Language Models' Knowledge and Reasoning
Title（参考訳）: FinEval-KR:大規模言語モデルの知識と推論のためのファイナンシャルドメイン評価フレームワーク
Authors: Shaoyu Dou, Yutian Shen, Mofan Chen, Zixuan Wang, Jiajie Xu, Qi Guo, Kailai Shao, Chao Chen, Haixiang Hu, Haibo Shi, Min Min, Liwen Zhang,
Abstract要約: FinEval-KRは、大規模言語モデルの知識と推論能力の定量化のための新しい評価フレームワークである。認知科学に触発されて,様々な認知レベルのタスクを推論する能力を分析する認知スコアを提案する。実験の結果,LLM推論能力と高次認知能力が推論精度に影響を与える中核的な要因であることが判明した。
参考スコア（独自算出の注目度）: 18.68776736676411
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Large Language Models (LLMs) demonstrate significant potential but face challenges in complex financial reasoning tasks requiring both domain knowledge and sophisticated reasoning. Current evaluation benchmarks often fall short by not decoupling these capabilities indicators from single task performance and lack root cause analysis for task failure. To address this, we introduce FinEval-KR, a novel evaluation framework for decoupling and quantifying LLMs' knowledge and reasoning abilities independently, proposing distinct knowledge score and reasoning score metrics. Inspired by cognitive science, we further propose a cognitive score based on Bloom's taxonomy to analyze capabilities in reasoning tasks across different cognitive levels. We also release a new open-source Chinese financial reasoning dataset covering 22 subfields to support reproducible research and further advancements in financial reasoning. Our experimental results reveal that LLM reasoning ability and higher-order cognitive ability are the core factors influencing reasoning accuracy. We also specifically find that even top models still face a bottleneck with knowledge application. Furthermore, our analysis shows that specialized financial LLMs generally lag behind the top general large models across multiple metrics.
Abstract（参考訳）: 大規模言語モデル(LLM)は、ドメイン知識と洗練された推論の両方を必要とする複雑な財務推論タスクにおいて、大きな可能性を示しているが、課題に直面している。現在の評価ベンチマークは、これらの機能インジケータを単一タスクのパフォーマンスから切り離さないことと、タスク障害の根本原因分析が欠如していることによって、しばしば不足する。そこで本研究では,LLMの知識と推論能力の分離と定量化のための新たな評価フレームワークであるFinEval-KRを紹介する。認知科学に触発されて、ブルームの分類に基づく認知スコアを提案し、異なる認知レベルにわたるタスクを推論する能力を分析する。また、再現可能な研究を支援するため、22のサブフィールドをカバーする新たなオープンソースの中国の金融推論データセットをリリースし、金融推論のさらなる進歩を図った。実験の結果,LLM推論能力と高次認知能力が推論精度に影響を与える中核的な要因であることが判明した。また、トップモデルでさえ知識アプリケーションではボトルネックに直面しています。さらに、分析の結果、金融LLMは複数の指標で上位の一般的な大規模モデルより遅れていることがわかった。

関連論文リスト

Reasoning or Overthinking: Evaluating Large Language Models on Financial Sentiment Analysis [1.3812010983144802]
我々は,様々な大規模言語モデル (LLM) が経済的文脈における人間ラベルの感情とどのように一致しているかを評価する。本研究は, モデル設計のプロンプトや本質的設計による推論が, この課題における性能を向上させるものではないことを示唆している。驚くべきことに、モデルと手法の最も正確かつ人間に整合した組み合わせは、CoT(Chain-of-Thought)を推進しないGPT-4oであった。
論文参考訳（メタデータ） (2025-06-05T02:47:23Z)
Truly Assessing Fluid Intelligence of Large Language Models through Dynamic Reasoning Evaluation [75.26829371493189]
大きな言語モデル(LLM)は、人間のような思考を反映する印象的な推論能力を示している。既存の推論ベンチマークでは、ドメイン固有の知識(結晶化インテリジェンス)に焦点を当てるか、解釈可能性に欠ける。階層的認知フレームワークを基盤とした動的推論評価ベンチマークであるDRE-Benchを提案する。
論文参考訳（メタデータ） (2025-06-03T09:01:08Z)
Financial Named Entity Recognition: How Far Can LLM Go? [2.4247752614854203]
大規模言語モデル(LLM)は、財務声明や発表、ビジネスニュースの増大から重要な情報の抽出と分析に革命をもたらした。金融名付きエンティティ認識(NER)問題において,最先端のLCMを体系的に評価し,その手法を推し進める。
論文参考訳（メタデータ） (2025-01-04T08:47:21Z)
MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文参考訳（メタデータ） (2024-06-20T03:50:23Z)
FAC$^2$E: Better Understanding Large Language Model Capabilities by Dissociating Language and Cognition [56.76951887823882]
大規模言語モデル(LLM)は、主に様々なテキスト理解および生成タスクにおける全体的なパフォーマンスによって評価される。 FAC$2$E, FAC$2$Eについて述べる。
論文参考訳（メタデータ） (2024-02-29T21:05:37Z)
Are LLMs Rational Investors? A Study on Detecting and Reducing the Financial Bias in LLMs [44.53203911878139]
大規模言語モデル(LLM)は、複雑な市場データとトレンドを解釈する金融分析において、ますます採用されている。 Financial Bias Indicators (FBI)は、Bias Unveiler、Bias Detective、Bias Tracker、Bias Antidoteといったコンポーネントを備えたフレームワークである。我々は、23のLLMを評価し、財務因果知識に基づく非バイアス化手法を提案する。
論文参考訳（メタデータ） (2024-02-20T04:26:08Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
Is Knowledge All Large Language Models Needed for Causal Reasoning? [11.476877330365664]
本稿では,大規模言語モデル(LLM)の因果推論について,人工知能の進化における解釈可能性と信頼性を高めるために検討する。本稿では,do-operativesを利用した新たな因果帰属モデルを提案する。
論文参考訳（メタデータ） (2023-12-30T04:51:46Z)
Enhancing Financial Sentiment Analysis via Retrieval Augmented Large Language Models [11.154814189699735]
大規模な言語モデル (LLM) は様々なNLPタスクにおいて優れた性能を示した。本稿では,金融感情分析のためのLLMフレームワークを提案する。提案手法の精度は15%から48%向上し,F1得点を得た。
論文参考訳（メタデータ） (2023-10-06T05:40:23Z)
Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。 LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文参考訳（メタデータ） (2023-10-02T01:00:50Z)
Empowering Many, Biasing a Few: Generalist Credit Scoring through Large Language Models [53.620827459684094]
大規模言語モデル(LLM)は、複数のタスクにまたがる強力な一般化能力を持つ信用スコアリングタスクにおいて大きな可能性を秘めている。クレジットスコアリングのための LLM を探索する,初のオープンソース包括的フレームワークを提案する。そこで我々は,各種金融リスク評価タスクの煩雑な要求に合わせて,指導チューニングによる最初の信用・リスク評価大言語モデル(CALM)を提案する。
論文参考訳（メタデータ） (2023-10-01T03:50:34Z)
SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。 SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文参考訳（メタデータ） (2023-07-20T07:01:57Z)
Beyond Classification: Financial Reasoning in State-of-the-Art Language Models [0.0]
大規模言語モデル(LLM)は複雑な多段階推論タスクにおいて顕著な能力を示した。本研究は,金融分野におけるLLMの適用可能性に関する包括的調査である。コヒーレントな財務推論を生成する能力は、まず6Bパラメータで現れ、より良い命令チューニングやより大きなデータセットで改善を続けている。
論文参考訳（メタデータ） (2023-04-30T04:36:05Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。