論文の概要: BIBench: Benchmarking Data Analysis Knowledge of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.02982v3
- Date: Thu, 29 Feb 2024 02:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 11:18:18.986579
- Title: BIBench: Benchmarking Data Analysis Knowledge of Large Language Models
- Title(参考訳): BIBench: 大規模言語モデルのベンチマークデータ分析知識
- Authors: Shu Liu, Shangqing Zhao, Chenghao Jia, Xinlin Zhuang, Zhaoguang Long,
Qingquan Wu, Chong Yang, Aimin Zhou, Man Lan
- Abstract要約: 大きな言語モデル(LLM)は、幅広いタスクにまたがる印象的な機能を示している。
しかし、データ分析の専門分野、特にデータ駆動思考に焦点をあてた能力と信頼性はいまだに不明である。
本ベンチマークは,データ解析分野におけるLCMの深度分析とLCMの進歩の促進を図ることを目的とする。
- 参考スコア(独自算出の注目度): 15.562520757000256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities across
a wide range of tasks. However, their proficiency and reliability in the
specialized domain of Data Analysis, particularly with a focus on data-driven
thinking, remain uncertain. To bridge this gap, we introduce BIBench, a
comprehensive benchmark designed to evaluate the data analysis capabilities of
LLMs within the context of Business Intelligence (BI). BIBench assesses LLMs
across three dimensions: 1) BI foundational knowledge, evaluating the models'
numerical reasoning and familiarity with financial concepts; 2) BI knowledge
application, determining the models' ability to quickly comprehend textual
information and generate analysis questions from multiple views; and 3) BI
technical skills, examining the models' use of technical knowledge to address
real-world data analysis challenges. BIBench comprises 11 sub-tasks, spanning
three categories of task types: classification, extraction, and generation.
Additionally, we've developed BIChat, a domain-specific dataset with over a
million data points, to fine-tune LLMs. We will release BIBenchmark, BIChat,
and the evaluation scripts at \url{https://github.com/cubenlp/BIBench}. This
benchmark aims to provide a measure for in-depth analysis of LLM abilities and
foster the advancement of LLMs in the field of data analysis.
- Abstract(参考訳): 大きな言語モデル(LLM)は、幅広いタスクにまたがる印象的な機能を示している。
しかし、データ分析の専門分野、特にデータ駆動思考に焦点をあてた能力と信頼性は依然として不確実である。
このギャップを埋めるために、ビジネスインテリジェンス(BI)のコンテキスト内でLLMのデータ分析能力を評価するために設計された包括的なベンチマークであるBIBenchを紹介する。
BIBench は3次元にわたる LLM を評価する。
1) 基礎知識,モデルの数値的推論及び金融概念への親密性の評価
2)bi知識応用は,テキスト情報を迅速に理解し,複数の視点から分析質問を生成するモデルの能力を決定する。
3)bi技術スキル,実世界のデータ分析課題に対処するためのモデルによる技術知識の利用の検討。
BIBenchは11のサブタスクで構成され、分類、抽出、生成の3つのカテゴリにまたがる。
さらに、100万以上のデータポイントを持つドメイン固有のデータセットであるBIChatを、微調整LDM用に開発しました。
BIBenchmark、BIChat、および評価スクリプトを \url{https://github.com/cubenlp/BIBench} でリリースします。
本ベンチマークは,データ解析分野におけるLCMの深度分析とLCMの進歩の促進を図ることを目的とする。
関連論文リスト
- Evaluating Large Language Models on Financial Report Summarization: An Empirical Study [9.28042182186057]
我々は3つの最先端大言語モデル(LLM)の比較研究を行っている。
我々の主な動機は、これらのモデルがどのように金融の中で活用できるかを探求することであり、正確さ、文脈的関連性、誤った情報や誤解を招く情報に対する堅牢性を要求する分野である。
本稿では,定量的メトリクス(精度,リコールなど)と質的分析(コンテキスト適合性,一貫性など)を統合し,各モデルの出力品質の全体像を提供する,革新的な評価フレームワークを提案する。
論文 参考訳(メタデータ) (2024-11-11T10:36:04Z) - A Survey of Large Language Models for Financial Applications: Progress, Prospects and Challenges [60.546677053091685]
大規模言語モデル(LLM)は金融分野における機械学習アプリケーションに新たな機会を開放した。
我々は、従来のプラクティスを変革し、イノベーションを促進する可能性に焦点を当て、様々な金融業務におけるLLMの適用について検討する。
本稿では,既存の文献を言語タスク,感情分析,財務時系列,財務推論,エージェントベースモデリング,その他の応用分野に分類するための調査を紹介する。
論文 参考訳(メタデータ) (2024-06-15T16:11:35Z) - AlphaFin: Benchmarking Financial Analysis with Retrieval-Augmented Stock-Chain Framework [48.3060010653088]
我々はAlphaFinデータセットをリリースし、従来の研究データセット、リアルタイム財務データ、手書きのチェーン・オブ・プリート(CoT)データを組み合わせています。
次に、AlphaFinデータセットを使用して、金融分析タスクを効果的に処理するために、Stock-Chainと呼ばれる最先端の手法をベンチマークします。
論文 参考訳(メタデータ) (2024-03-19T09:45:33Z) - FinBen: A Holistic Financial Benchmark for Large Language Models [75.09474986283394]
FinBenは、24の財務タスクにまたがる36のデータセットを含む、最初の大規模なオープンソース評価ベンチマークである。
FinBenは、幅広いタスクとデータセット、ストックトレーディングの最初の評価、新しいエージェントと検索可能な生成(RAG)の評価、およびテキスト要約、質問応答、株式トレーディングのための3つの新しいオープンソース評価データセットを提供する。
論文 参考訳(メタデータ) (2024-02-20T02:16:16Z) - Numerical Claim Detection in Finance: A New Financial Dataset, Weak-Supervision Model, and Market Analysis [4.575870619860645]
ファイナンシャルドメインにおけるクレーム検出タスクのための新たな財務データセットを構築した。
本稿では,対象物の専門家(SME)の知識を集約関数に組み込んだ,新たな弱スーパービジョンモデルを提案する。
ここでは、利益の急落と楽観的な指標への回帰の依存を観察する。
論文 参考訳(メタデータ) (2024-02-18T22:55:26Z) - Instruct-FinGPT: Financial Sentiment Analysis by Instruction Tuning of
General-Purpose Large Language Models [18.212210748797332]
本稿では,これらの問題に対処する簡易かつ効果的な命令チューニング手法を提案する。
実験では, 最先端の教師付き感情分析モデルより優れていた。
論文 参考訳(メタデータ) (2023-06-22T03:56:38Z) - PIXIU: A Large Language Model, Instruction Data and Evaluation Benchmark
for Finance [63.51545277822702]
PIXIUは、命令データ付き微調整LLaMAに基づく最初の金融大規模言語モデル(LLM)を含む包括的なフレームワークである。
我々はLLaMAを細調整してFinMAを提案する。
我々は、FinMAと既存のLLMを詳細に分析し、重要な財政課題に対処する際の長所と短所を明らかにする。
論文 参考訳(メタデータ) (2023-06-08T14:20:29Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z) - FinQA: A Dataset of Numerical Reasoning over Financial Data [52.7249610894623]
我々は、大量の財務文書の分析を自動化することを目的として、財務データに関する深い質問に答えることに重点を置いている。
我々は,金融専門家が作成した財務報告に対して質問回答のペアを用いた,新たな大規模データセットFinQAを提案する。
その結果、人気があり、大規模で、事前訓練されたモデルは、金融知識を得るための専門的な人間には程遠いことが示される。
論文 参考訳(メタデータ) (2021-09-01T00:08:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。