Fugu-MT 論文翻訳(概要): FinDABench: Benchmarking Financial Data Analysis Ability of Large Language Models

論文の概要: FinDABench: Benchmarking Financial Data Analysis Ability of Large Language Models

arxiv url: http://arxiv.org/abs/2401.02982v4
Date: Fri, 14 Jun 2024 10:17:40 GMT
ステータス: 翻訳完了
システム内更新日: 2024-06-17 19:24:01.430090
Title: FinDABench: Benchmarking Financial Data Analysis Ability of Large Language Models
Title（参考訳）: FinDABench: 大規模言語モデルの財務データ分析能力のベンチマーク
Authors: Shu Liu, Shangqing Zhao, Chenghao Jia, Xinlin Zhuang, Zhaoguang Long, Jie Zhou, Aimin Zhou, Man Lan, Qingquan Wu, Chong Yang,
Abstract要約: textttFinDABenchは、大規模言語モデルの財務データ分析能力を評価するために設計されたベンチマークである。 textttFinDABenchは、LLM能力の詳細な分析のための指標を提供することを目的としている。
参考スコア（独自算出の注目度）: 26.99936434072108
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities across a wide range of tasks. However, their proficiency and reliability in the specialized domain of financial data analysis, particularly focusing on data-driven thinking, remain uncertain. To bridge this gap, we introduce \texttt{FinDABench}, a comprehensive benchmark designed to evaluate the financial data analysis capabilities of LLMs within this context. \texttt{FinDABench} assesses LLMs across three dimensions: 1) \textbf{Foundational Ability}, evaluating the models' ability to perform financial numerical calculation and corporate sentiment risk assessment; 2) \textbf{Reasoning Ability}, determining the models' ability to quickly comprehend textual information and analyze abnormal financial reports; and 3) \textbf{Technical Skill}, examining the models' use of technical knowledge to address real-world data analysis challenges involving analysis generation and charts visualization from multiple perspectives. We will release \texttt{FinDABench}, and the evaluation scripts at \url{https://github.com/cubenlp/BIBench}. \texttt{FinDABench} aims to provide a measure for in-depth analysis of LLM abilities and foster the advancement of LLMs in the field of financial data analysis.
Abstract（参考訳）: 大きな言語モデル(LLM)は、幅広いタスクにまたがる印象的な機能を示している。しかし、金融データ分析の専門分野において、特にデータ駆動思考に焦点をあてる能力と信頼性は、いまだに不明である。このギャップを埋めるために、この文脈におけるLLMの財務データ分析能力を評価するために設計された総合的なベンチマークである \texttt{FinDABench} を導入する。 \texttt{FinDABench} は3次元にわたる LLM を評価する。 1) 財務数値計算及び企業感情リスク評価を行うモデルの能力を評価するための「textbf{Foundational Ability}」 2 テキスト情報を迅速に理解し、異常な財務報告を解析するモデルの能力を決定すること。 3)<textbf{Technical Skill}</textbf{Technical Skill}</textbf</text></textbf{Technical Skill}</textbf{Technical Skill}</textbf{Technical Skill}</textbf{Technical Skill}</textbf{Technical Skill}</textbf</textbf</textbf</textbf</textbf</textbf</textbf</textnical Skill}</textbf</textnical Skill}>)。 We will release \texttt{FinDABench} and the evaluation script at \url{https://github.com/cubenlp/BIBench}。金融データ分析の分野では, LLMの能力の詳細な分析方法を提供し, LLMの進歩を促進することを目的としている。

関連論文リスト

FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。 2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文参考訳（メタデータ） (2025-10-19T14:05:35Z)
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文参考訳（メタデータ） (2025-10-07T20:06:15Z)
Exploring Large Language Models for Financial Applications: Techniques, Performance, and Challenges with FinMA [0.0]
PIXIUフレームワークで作成されたモデルであるFinMAは、専門的な財務業務におけるパフォーマンスを評価する。調査の結果,FinMAは感情分析や分類に優れていたが,数値推論,実体認識,要約といったタスクにおいて顕著な課題に直面していることがわかった。
論文参考訳（メタデータ） (2025-10-02T11:19:59Z)
Why Do Open-Source LLMs Struggle with Data Analysis? A Systematic Empirical Study [55.09905978813599]
大規模言語モデル(LLM)は、データ分析タスクの自動化を約束する。しかし、オープンソースモデルは、このような推論集約的なシナリオにおいて、重大な制限に直面している。本研究では,オープンソースLLMのデータ解析機能を強化するための戦略について検討する。
論文参考訳（メタデータ） (2025-06-24T17:04:23Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance [32.516564836540745]
大規模言語モデル(LLM)は、強力な一般的な推論能力を示しているが、財務的推論におけるその効果はいまだに解明されていない。我々は,4つの複雑な財務推論タスクにおいて,24の最先端の一般および推論に焦点を当てたLCMを評価した。本稿では,Fino1-8BとFinoBの2つのドメイン適応モデルを提案する。
論文参考訳（メタデータ） (2025-02-12T05:13:04Z)
FinSphere: A Conversational Stock Analysis Agent Equipped with Quantitative Tools based on Real-Time Database [7.268553732731626]
FinSphereは、会話型の株式分析エージェントである。統合されたフレームワークは、リアルタイムデータフィード、定量的ツール、および命令調整 LLM を組み合わせる。
論文参考訳（メタデータ） (2025-01-08T07:50:50Z)
Auto-Generating Earnings Report Analysis via a Financial-Augmented LLM [1.3597551064547502]
本稿では,収益報告分析を自動生成する LLM の開発という,新たな課題を提案する。我々の手法は、既存の決算報告の詳細な分析と、この目的のためにLCMを微調整するためのユニークなアプローチを含む。広範な財務文書により、金融指導データを構築し、LLMを財務状況に適応させることを可能にした。
論文参考訳（メタデータ） (2024-12-11T08:09:42Z)
Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-11T10:36:04Z)
A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges [60.546677053091685]
大規模言語モデル(LLM)は金融分野における機械学習アプリケーションに新たな機会を開放した。我々は、従来のプラクティスを変革し、イノベーションを促進する可能性に焦点を当て、様々な金融業務におけるLLMの適用について検討する。本稿では,既存の文献を言語タスク,感情分析,財務時系列,財務推論,エージェントベースモデリング,その他の応用分野に分類するための調査を紹介する。
論文参考訳（メタデータ） (2024-06-15T16:11:35Z)
AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文参考訳（メタデータ） (2024-03-19T09:45:33Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
Numerical Claim Detection in Finance: A New Financial Dataset, Weak-Supervision Model, and Market Analysis [4.575870619860645]
ファイナンシャルドメインにおけるクレーム検出タスクのための新たな財務データセットを構築した。本稿では,対象物の専門家(SME)の知識を集約関数に組み込んだ,新たな弱スーパービジョンモデルを提案する。ここでは、利益の急落と楽観的な指標への回帰の依存を観察する。
論文参考訳（メタデータ） (2024-02-18T22:55:26Z)
Instruct-FinGPT: Financial Sentiment Analysis by Instruction Tuning of General-Purpose Large Language Models [18.212210748797332]
本稿では,これらの問題に対処する簡易かつ効果的な命令チューニング手法を提案する。実験では, 最先端の教師付き感情分析モデルより優れていた。
論文参考訳（メタデータ） (2023-06-22T03:56:38Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)
FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文参考訳（メタデータ） (2021-09-01T00:08:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。