論文の概要: BIBench: Benchmarking Data Analysis Knowledge of Large Language Models
- arxiv url: http://arxiv.org/abs/2401.02982v3
- Date: Thu, 29 Feb 2024 02:27:23 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-01 11:18:18.986579
- Title: BIBench: Benchmarking Data Analysis Knowledge of Large Language Models
- Title(参考訳): BIBench: 大規模言語モデルのベンチマークデータ分析知識
- Authors: Shu Liu, Shangqing Zhao, Chenghao Jia, Xinlin Zhuang, Zhaoguang Long,
Qingquan Wu, Chong Yang, Aimin Zhou, Man Lan
- Abstract要約: 大きな言語モデル(LLM)は、幅広いタスクにまたがる印象的な機能を示している。
しかし、データ分析の専門分野、特にデータ駆動思考に焦点をあてた能力と信頼性はいまだに不明である。
本ベンチマークは,データ解析分野におけるLCMの深度分析とLCMの進歩の促進を図ることを目的とする。
- 参考スコア(独自算出の注目度): 15.562520757000256
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) have demonstrated impressive capabilities across
a wide range of tasks. However, their proficiency and reliability in the
specialized domain of Data Analysis, particularly with a focus on data-driven
thinking, remain uncertain. To bridge this gap, we introduce BIBench, a
comprehensive benchmark designed to evaluate the data analysis capabilities of
LLMs within the context of Business Intelligence (BI). BIBench assesses LLMs
across three dimensions: 1) BI foundational knowledge, evaluating the models'
numerical reasoning and familiarity with financial concepts; 2) BI knowledge
application, determining the models' ability to quickly comprehend textual
information and generate analysis questions from multiple views; and 3) BI
technical skills, examining the models' use of technical knowledge to address
real-world data analysis challenges. BIBench comprises 11 sub-tasks, spanning
three categories of task types: classification, extraction, and generation.
Additionally, we've developed BIChat, a domain-specific dataset with over a
million data points, to fine-tune LLMs. We will release BIBenchmark, BIChat,
and the evaluation scripts at \url{https://github.com/cubenlp/BIBench}. This
benchmark aims to provide a measure for in-depth analysis of LLM abilities and
foster the advancement of LLMs in the field of data analysis.
- Abstract(参考訳): 大きな言語モデル(LLM)は、幅広いタスクにまたがる印象的な機能を示している。
しかし、データ分析の専門分野、特にデータ駆動思考に焦点をあてた能力と信頼性は依然として不確実である。
このギャップを埋めるために、ビジネスインテリジェンス(BI)のコンテキスト内でLLMのデータ分析能力を評価するために設計された包括的なベンチマークであるBIBenchを紹介する。
BIBench は3次元にわたる LLM を評価する。
1) 基礎知識,モデルの数値的推論及び金融概念への親密性の評価
2)bi知識応用は,テキスト情報を迅速に理解し,複数の視点から分析質問を生成するモデルの能力を決定する。
3)bi技術スキル,実世界のデータ分析課題に対処するためのモデルによる技術知識の利用の検討。
BIBenchは11のサブタスクで構成され、分類、抽出、生成の3つのカテゴリにまたがる。
さらに、100万以上のデータポイントを持つドメイン固有のデータセットであるBIChatを、微調整LDM用に開発しました。
BIBenchmark、BIChat、および評価スクリプトを \url{https://github.com/cubenlp/BIBench} でリリースします。
本ベンチマークは,データ解析分野におけるLCMの深度分析とLCMの進歩の促進を図ることを目的とする。
関連論文リスト
- Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - Text2Analysis: A Benchmark of Table Question Answering with Advanced
Data Analysis and Unclear Queries [67.0083902913112]
高度な解析タスクを取り入れたText2Analysisベンチマークを開発した。
また,5つのイノベーティブかつ効果的なアノテーション手法を開発した。
3つの異なる指標を用いて5つの最先端モデルを評価する。
論文 参考訳(メタデータ) (2023-12-21T08:50:41Z) - Zero- and Few-Shots Knowledge Graph Triplet Extraction with Large
Language Models [7.919349589245355]
本研究では,Zero-およびFew-Shots設定において,さまざまなサイズの大規模言語モデル(LLM)のトリプレット抽出機能を検証した。
我々は,知識ベース(KB)からコンテキスト情報を動的に収集するパイプラインを提案した。
論文 参考訳(メタデータ) (2023-12-04T15:12:04Z) - On Evaluating the Integration of Reasoning and Action in LLM Agents with
Database Question Answering [25.57202500348071]
本研究では、大規模言語モデルがデータベースとどのように相互作用するかを評価するために設計された、新しい長文データベース質問応答データセットを提案する。
このタスクでは、LLMが戦略的に複数のクエリを生成し、データベースから十分なデータを取得し、取得したコンテキストを推論し、それらを総合的な分析的な物語に合成する必要がある。
本稿では2つのインタラクション戦略を提案し評価し、インタラクション内の個々のステージを詳細に分析する。
論文 参考訳(メタデータ) (2023-11-16T09:55:07Z) - Which is better? Exploring Prompting Strategy For LLM-based Metrics [6.681126871165601]
本稿では,DSBA が提案する Prompting Large Language Models を Explainable Metrics 共有タスクとして記述する。
BLEUやROUGEのような従来の類似性に基づくメトリクスは、人間の評価に悪影響を与えており、オープンな生成タスクには適していない。
論文 参考訳(メタデータ) (2023-11-07T06:36:39Z) - Improving Open Information Extraction with Large Language Models: A
Study on Demonstration Uncertainty [52.72790059506241]
オープン情報抽出(OIE)タスクは、構造化されていないテキストから構造化された事実を抽出することを目的としている。
一般的なタスク解決手段としてChatGPTのような大きな言語モデル(LLM)の可能性にもかかわらず、OIEタスクの最先端(教師付き)メソッドは遅れている。
論文 参考訳(メタデータ) (2023-09-07T01:35:24Z) - KoLA: Carefully Benchmarking World Knowledge of Large Language Models [56.672981891304005]
我々は知識指向LLMアセスメントベンチマーク(KoLA)を構築した。
能力モデリングでは、人間の認知を模倣して知識関連能力の4段階の分類を作成し、19ドルのタスクをカバーしている。
データには、LLMによって事前訓練されたコーパスであるウィキペディアと、継続的に収集される新興コーパスの両方を使用し、目に見えないデータを扱う能力と知識の進化を評価することを目的としています。
論文 参考訳(メタデータ) (2023-06-15T17:20:46Z) - LAMM: Language-Assisted Multi-Modal Instruction-Tuning Dataset,
Framework, and Benchmark [81.42376626294812]
本稿では,Language-Assisted Multi-Modalインストラクションチューニングデータセット,フレームワーク,ベンチマークを提案する。
我々の目標は、MLLMのトレーニングと評価のための成長するエコシステムとしてLAMMを確立することです。
本稿では,2次元および3次元視覚のための広範囲な視覚タスクをカバーする包括的データセットとベンチマークを提案する。
論文 参考訳(メタデータ) (2023-06-11T14:01:17Z) - Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。
26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文 参考訳(メタデータ) (2023-05-24T10:45:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。