Fugu-MT 論文翻訳(概要): BizBench: A Quantitative Reasoning Benchmark for Business and Finance

論文の概要: BizBench: A Quantitative Reasoning Benchmark for Business and Finance

arxiv url: http://arxiv.org/abs/2311.06602v1
Date: Sat, 11 Nov 2023 16:16:11 GMT
ステータス: 翻訳完了
システム内更新日: 2023-11-14 17:41:50.101010
Title: BizBench: A Quantitative Reasoning Benchmark for Business and Finance
Title（参考訳）: BizBench:ビジネスとファイナンスのための定量的推論ベンチマーク
Authors: Rik Koncel-Kedziorski, Michael Krumdick, Viet Lai, Varshini Reddy, Charles Lovering, Chris Tanner
Abstract要約: BizBenchは、現実的な財務問題を推論するモデルの能力を評価するための新しいベンチマークである。 BizBenchは8つの量的推論タスクから構成される。
参考スコア（独自算出の注目度）: 7.4673182865000225
License: http://creativecommons.org/licenses/by-nc-sa/4.0/
Abstract: As large language models (LLMs) impact a growing number of complex domains, it is becoming increasingly important to have fair, accurate, and rigorous evaluation benchmarks. Evaluating the reasoning skills required for business and financial NLP stands out as a particularly difficult challenge. We introduce BizBench, a new benchmark for evaluating models' ability to reason about realistic financial problems. BizBench comprises 8 quantitative reasoning tasks. Notably, BizBench targets the complex task of question-answering (QA) for structured and unstructured financial data via program synthesis (i.e., code generation). We introduce three diverse financially-themed code-generation tasks from newly collected and augmented QA data. Additionally, we isolate distinct financial reasoning capabilities required to solve these QA tasks: reading comprehension of financial text and tables, which is required to extract correct intermediate values; and understanding domain knowledge (e.g., financial formulas) needed to calculate complex solutions. Collectively, these tasks evaluate a model's financial background knowledge, ability to extract numeric entities from financial documents, and capacity to solve problems with code. We conduct an in-depth evaluation of open-source and commercial LLMs, illustrating that BizBench is a challenging benchmark for quantitative reasoning in the finance and business domain.
Abstract（参考訳）: 大規模言語モデル(LLM)が多くの複雑なドメインに影響を与えるにつれ、公正で正確で厳密な評価ベンチマークを持つことがますます重要になっている。ビジネスおよび金融NLPに必要な推論スキルを評価することは、特に難しい課題である。実存的な金融問題に対するモデルの判断能力を評価するための新しいベンチマークであるbizbenchを紹介する。 BizBenchは8つの量的推論タスクからなる。特に、BizBenchは、プログラム合成(コード生成)による構造化および非構造化の財務データに対する質問応答(QA)の複雑なタスクをターゲットにしている。本稿では,新たに収集および拡張されたQAデータから,金融をテーマとした3つのコード生成タスクを紹介する。さらに,これらの課題を解決するために必要な財務的推論能力を分離する: 正しい中間値を抽出するために必要な財務的テキストと表の理解を読むこと,複雑な解を計算するために必要なドメイン知識(例えば財務的公式)を理解すること。これらのタスクは、モデルの財務的背景知識、財務文書から数値的実体を抽出する能力、およびコードによる問題を解決する能力を評価する。我々は、BizBenchが金融及びビジネス領域における量的推論の難しいベンチマークであることを示すオープンソースおよび商用LCMの詳細な評価を行う。

関連論文リスト

The CLEF-2026 FinMMEval Lab: Multilingual and Multimodal Evaluation of Financial AI Systems [54.12165004393043]
FinMMEval 2026は、財務的理解、推論、意思決定にまたがる3つの相互接続タスクを提供する。このラボは、堅牢で透明でグローバルに包括的な金融AIシステムの開発を促進することを目的としている。
論文参考訳（メタデータ） (2026-02-11T14:14:06Z)
QuantEval: A Benchmark for Financial Quantitative Tasks in Large Language Models [9.14836101052563]
大規模言語モデル(LLM)は、多くのドメインにわたって強力な能力を示してきたが、財務的な量的タスクの評価は依然として断片化されている。我々は、知識に基づくQA、量的数学的推論、量的戦略コーディングの3つの重要な分野にわたるLCMを評価するベンチマークであるQuantEvalを紹介する。
論文参考訳（メタデータ） (2026-01-13T16:14:23Z)
FinSight: Towards Real-World Financial Deep Research [68.31086471310773]
FinSightは、高品質でマルチモーダルな財務報告を作成するための新しいフレームワークである。プロフェッショナルグレードの可視化を確保するため,反復視覚強調機構を提案する。 2段階のBinging Frameworkは、簡潔な分析セグメントをコヒーレント、引用認識、マルチモーダルレポートに拡張する。
論文参考訳（メタデータ） (2025-10-19T14:05:35Z)
FinLFQA: Evaluating Attributed Text Generation of LLMs in Financial Long-Form Question Answering [57.43420753842626]
FinLFQAは、複雑な財務問題に対する長文の回答を生成するための大規模言語モデルの能力を評価するために設計されたベンチマークである。回答品質と属性品質の両方をカバーする自動評価フレームワークを提供する。
論文参考訳（メタデータ） (2025-10-07T20:06:15Z)
Exploring Large Language Models for Financial Applications: Techniques, Performance, and Challenges with FinMA [0.0]
PIXIUフレームワークで作成されたモデルであるFinMAは、専門的な財務業務におけるパフォーマンスを評価する。調査の結果,FinMAは感情分析や分類に優れていたが,数値推論,実体認識,要約といったタスクにおいて顕著な課題に直面していることがわかった。
論文参考訳（メタデータ） (2025-10-02T11:19:59Z)
XFinBench: Benchmarking LLMs in Complex Financial Problem Solving and Reasoning [28.967959142733903]
金融問題の解決における大規模言語モデルの能力を評価するための新しいベンチマークであるXFinBenchを紹介する。 O1は67.3%の精度で最高性能のテキストのみのモデルであるが、それでも12.5%の人間専門家にはかなり遅れている。我々は,知識増強分析のための3,032の財務用語を持つ知識銀行を構築し,関連する知識が小さなオープンソースモデルに一貫した精度の向上をもたらすことを発見した。
論文参考訳（メタデータ） (2025-08-20T15:23:35Z)
Towards Competent AI for Fundamental Analysis in Finance: A Benchmark Dataset and Evaluation [3.077814260904367]
ファイナンシャルステートメント分析に着目したベンチマークデータセットであるFinAR-Benchを提案する。重要な情報を抽出し、財務指標を計算し、論理的推論を適用する。本研究は, 基礎解析におけるLLMの現在の強度と限界を明確に把握するものである。
論文参考訳（メタデータ） (2025-05-22T07:06:20Z)
FinMaster: A Holistic Benchmark for Mastering Full-Pipeline Financial Workflows with LLMs [15.230256296815565]
FinMasterは、金融リテラシー、会計、監査、コンサルティングにおける大規模言語モデル(LLM)の機能を評価するために設計されたベンチマークである。 FinMasterは、FinSim、FinSuite、FinEvalの3つの主要なモジュールで構成されている。実験では、財務的な推論において重要な能力のギャップが示され、精度は基本的なタスクで90%以上から、複雑なシナリオではわずか37%に低下した。
論文参考訳（メタデータ） (2025-05-18T11:47:55Z)
FinDER: Financial Dataset for Question Answering and Evaluating Retrieval-Augmented Generation [63.55583665003167]
ファイナンスにおけるRetrieval-Augmented Generation(RAG)に適したエキスパート生成データセットであるFinDERを提案する。 FinDERは、ドメインの専門家による検索関連証拠の注釈付けに重点を置いており、5,703のクエリ・エビデンス・アンサー・トリプルを提供している。大きなコーパスから関連する情報を取得するためにモデルに挑戦することで、FinDERはRAGシステムを評価するためのより現実的なベンチマークを提供する。
論文参考訳（メタデータ） (2025-04-22T11:30:13Z)
An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文参考訳（メタデータ） (2025-02-25T03:40:36Z)
Fino1: On the Transferability of Reasoning Enhanced LLMs to Finance [32.516564836540745]
大規模言語モデル(LLM)は、強力な一般的な推論能力を示しているが、財務的推論におけるその効果はいまだに解明されていない。我々は,4つの複雑な財務推論タスクにおいて,24の最先端の一般および推論に焦点を当てたLCMを評価した。本稿では,Fino1-8BとFinoBの2つのドメイン適応モデルを提案する。
論文参考訳（メタデータ） (2025-02-12T05:13:04Z)
FinanceQA: A Benchmark for Evaluating Financial Analysis Capabilities of Large Language Models [0.0]
FinanceQAは、LLMのパフォーマンスを実世界の投資業務を反映した複雑な数値分析タスクで評価するテストスイートである。現在のLLMは、金融機関の厳密な精度要件を満たすことができず、モデルは現実的なタスクの約60%を欠いている。その結果、このようなタスクをサポートするためには高品質なトレーニングデータが必要であることが示され、OpenAIの微調整APIを使って実験した。
論文参考訳（メタデータ） (2025-01-30T00:06:55Z)
Financial Named Entity Recognition: How Far Can LLM Go? [2.4247752614854203]
大規模言語モデル(LLM)は、財務声明や発表、ビジネスニュースの増大から重要な情報の抽出と分析に革命をもたらした。金融名付きエンティティ認識(NER)問題において,最先端のLCMを体系的に評価し,その手法を推し進める。
論文参考訳（メタデータ） (2025-01-04T08:47:21Z)
Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文参考訳（メタデータ） (2024-11-11T10:36:04Z)
CatMemo at the FinLLM Challenge Task: Fine-Tuning Large Language Models using Data Fusion in Financial Applications [10.225210627594894]
IJCAI-2024 FinLLMの課題に対して,金融業務の3つの重要な領域におけるLLMの能力について検討した。金融分類、財務文書要約、単一株式取引について検討する。提案手法は,これらの多様なタスクを包括的かつ総合的に処理することを目的としており,LLMの多様かつ複雑な財務課題への対処能力の向上と意思決定能力の向上を図っている。
論文参考訳（メタデータ） (2024-07-02T05:04:13Z)
Financial Knowledge Large Language Model [4.599537455808687]
大規模言語モデル(LLM)の財務知識を評価するための評価ベンチマークであるIDEA-FinBenchを紹介する。金融分野への一般LLMの迅速な適応を容易にするためのフレームワークであるIDEA-FinKERを提案する。最後に LLM を利用した財務質問応答システム IDEA-FinQA を提案する。
論文参考訳（メタデータ） (2024-06-29T08:26:49Z)
A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges [60.546677053091685]
大規模言語モデル(LLM)は金融分野における機械学習アプリケーションに新たな機会を開放した。我々は、従来のプラクティスを変革し、イノベーションを促進する可能性に焦点を当て、様々な金融業務におけるLLMの適用について検討する。本稿では,既存の文献を言語タスク,感情分析,財務時系列,財務推論,エージェントベースモデリング,その他の応用分野に分類するための調査を紹介する。
論文参考訳（メタデータ） (2024-06-15T16:11:35Z)
AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文参考訳（メタデータ） (2024-03-19T09:45:33Z)
FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。 FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文参考訳（メタデータ） (2024-02-20T02:16:16Z)
Evaluating LLMs' Mathematical Reasoning in Financial Document Question Answering [53.56653281752486]
本研究では,大言語モデルによる4つの財務質問応答データセットの数学的推論について検討する。数理推論のステップの数が増えるにつれて、テーブルの複雑さや性能の変化に対する感度に焦点をあてる。半構造化文書に適した新しいプロンプト技術を導入する。
論文参考訳（メタデータ） (2024-02-17T05:10:18Z)
FinDABench: Benchmarking Financial Data Analysis Ability of Large Language Models [26.99936434072108]
textttFinDABenchは、大規模言語モデルの財務データ分析能力を評価するために設計されたベンチマークである。 textttFinDABenchは、LLM能力の詳細な分析のための指標を提供することを目的としている。
論文参考訳（メタデータ） (2024-01-01T15:26:23Z)
PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。我々はLLaMAを細調整してFinMAを提案する。我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文参考訳（メタデータ） (2023-06-08T14:20:29Z)
FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文参考訳（メタデータ） (2021-09-01T00:08:14Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。