論文の概要: StatLLM: A Dataset for Evaluating the Performance of Large Language Models in Statistical Analysis
- arxiv url: http://arxiv.org/abs/2502.17657v1
- Date: Mon, 24 Feb 2025 21:11:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-26 15:21:36.213258
- Title: StatLLM: A Dataset for Evaluating the Performance of Large Language Models in Statistical Analysis
- Title(参考訳): StatLLM:統計解析における大規模言語モデルの性能評価のためのデータセット
- Authors: Xinyi Song, Lina Lee, Kexin Xie, Xueying Liu, Xinwei Deng, Yili Hong,
- Abstract要約: StatLLMは、統計解析において大規模言語モデルの性能を評価するためのオープンソースのデータセットである。
最初のコンポーネントは、さまざまな分析とデータセットにまたがる統計分析タスクを含む。
第2のコンポーネントは、ChatGPT 3.5、ChatGPT 4.0、Llama 3.1によって生成されたSASコードである。
第3のコンポーネントは、LLM生成コードの正確性、有効性、可読性、実行可能性、出力精度を評価するための、人間の専門家による評価スコアを含んでいる。
- 参考スコア(独自算出の注目度): 2.5541378136265047
- License:
- Abstract: The coding capabilities of large language models (LLMs) have opened up new opportunities for automatic statistical analysis in machine learning and data science. However, before their widespread adoption, it is crucial to assess the accuracy of code generated by LLMs. A major challenge in this evaluation lies in the absence of a benchmark dataset for statistical code (e.g., SAS and R). To fill in this gap, this paper introduces StatLLM, an open-source dataset for evaluating the performance of LLMs in statistical analysis. The StatLLM dataset comprises three key components: statistical analysis tasks, LLM-generated SAS code, and human evaluation scores. The first component includes statistical analysis tasks spanning a variety of analyses and datasets, providing problem descriptions, dataset details, and human-verified SAS code. The second component features SAS code generated by ChatGPT 3.5, ChatGPT 4.0, and Llama 3.1 for those tasks. The third component contains evaluation scores from human experts in assessing the correctness, effectiveness, readability, executability, and output accuracy of the LLM-generated code. We also illustrate the unique potential of the established benchmark dataset for (1) evaluating and enhancing natural language processing metrics, (2) assessing and improving LLM performance in statistical coding, and (3) developing and testing of next-generation statistical software - advancements that are crucial for data science and machine learning research.
- Abstract(参考訳): 大規模言語モデル(LLM)のコーディング能力は、機械学習とデータサイエンスにおける自動統計分析の新たな機会を開いた。
しかし、広く採用される前には、LLMが生成するコードの正確性を評価することが不可欠である。
この評価における大きな課題は、統計コード(例えば、SAS、R)のベンチマークデータセットがないことである。
このギャップを埋めるために、統計解析においてLLMの性能を評価するためのオープンソースのデータセットStatLLMを紹介する。
StatLLMデータセットは、統計解析タスク、LLM生成SASコード、人間評価スコアの3つの重要なコンポーネントから構成される。
最初のコンポーネントは、さまざまな分析とデータセットにまたがる統計分析タスクを含み、問題記述、データセットの詳細、人間検証されたSASコードを提供する。
第2のコンポーネントは、ChatGPT 3.5、ChatGPT 4.0、Llama 3.1によって生成されたSASコードである。
第3のコンポーネントは、LLM生成コードの正確性、有効性、可読性、実行可能性、出力精度を評価するための、人間の専門家による評価スコアを含んでいる。
また,(1)自然言語処理メトリクスの評価・向上,(2)統計的符号化におけるLLM性能の評価・改善,(3)次世代統計ソフトウェアの開発・テストなど,データサイエンスや機械学習研究に欠かせない進歩について,確立されたベンチマークデータセットのユニークな可能性について述べる。
関連論文リスト
- Performance Evaluation of Large Language Models in Statistical Programming [9.333703895770913]
大規模言語モデル(LLM)は、自動コード生成に革命をもたらし、自動統計解析のための新しい道を開いた。
統計的解析のためのSASプログラミング分野において,ChatGPTの2バージョンとLlamaの1バージョンを含むLLMの性能を評価する。
我々は,LLMが生成するSASコードの品質を,正確性,有効性,可読性,実行可能性,出力結果の正確性に基づいて総合的に評価する。
論文 参考訳(メタデータ) (2025-02-18T18:37:15Z) - Meta-Statistical Learning: Supervised Learning of Statistical Inference [59.463430294611626]
この研究は、大きな言語モデル(LLM)の成功を駆動するツールと原則が、分散レベルのタスクに取り組むために再利用可能であることを実証している。
本稿では,統計的推論タスクを教師付き学習問題として再構成するマルチインスタンス学習に触発されたメタ統計学習を提案する。
論文 参考訳(メタデータ) (2025-02-17T18:04:39Z) - Are Large Language Models Useful for Time Series Data Analysis? [3.44393516559102]
時系列データは、医療、エネルギー、金融といった様々な分野において重要な役割を果たす。
本研究では,大規模言語モデル(LLM)が時系列データ解析に有効かどうかを検討する。
論文 参考訳(メタデータ) (2024-12-16T02:47:44Z) - Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。
我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。
提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文 参考訳(メタデータ) (2024-10-24T17:56:08Z) - SELF-GUIDE: Better Task-Specific Instruction Following via Self-Synthetic Finetuning [70.21358720599821]
大規模言語モデル(LLM)は、適切な自然言語プロンプトを提供する際に、多様なタスクを解決するという約束を持っている。
学生LLMからタスク固有の入出力ペアを合成する多段階メカニズムであるSELF-GUIDEを提案する。
ベンチマークの指標から,分類タスクに約15%,生成タスクに18%の絶対的な改善を報告した。
論文 参考訳(メタデータ) (2024-07-16T04:41:58Z) - LLM-Select: Feature Selection with Large Language Models [64.5099482021597]
大規模言語モデル(LLM)は、データサイエンスの標準ツールに匹敵するパフォーマンスで、最も予測可能な機能を選択することができる。
以上の結果から,LSMはトレーニングに最適な機能を選択するだけでなく,そもそもどの機能を収集すべきかを判断する上でも有用である可能性が示唆された。
論文 参考訳(メタデータ) (2024-07-02T22:23:40Z) - CLAIM Your Data: Enhancing Imputation Accuracy with Contextual Large Language Models [0.18416014644193068]
本稿では,精度インプット法(CLAIM)の文脈言語モデルを提案する。
従来の計算法とは異なり、CLAIMは文脈に関連のある自然言語記述子を使用して、欠落した値を埋める。
多様なデータセットや欠落パターンに対する評価は,既存の計算手法よりもCLAIMの方が優れた性能を示している。
論文 参考訳(メタデータ) (2024-05-28T00:08:29Z) - DataAgent: Evaluating Large Language Models' Ability to Answer Zero-Shot, Natural Language Queries [0.0]
OpenAIのGPT-3.5をLanguage Data Scientist(LDS)として評価する
このモデルは、さまざまなベンチマークデータセットでテストされ、そのパフォーマンスを複数の標準で評価した。
論文 参考訳(メタデータ) (2024-03-29T22:59:34Z) - Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。
このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。
データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文 参考訳(メタデータ) (2024-02-27T16:15:03Z) - MatPlotAgent: Method and Evaluation for LLM-Based Agentic Scientific Data Visualization [86.61052121715689]
MatPlotAgentは、科学的データ可視化タスクを自動化するために設計された、モデルに依存しないフレームワークである。
MatPlotBenchは、100人の検証されたテストケースからなる高品質なベンチマークである。
論文 参考訳(メタデータ) (2024-02-18T04:28:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。