Fugu-MT 論文翻訳(概要): Performance Evaluation of Large Language Models in Statistical Programming

論文の概要: Performance Evaluation of Large Language Models in Statistical Programming

arxiv url: http://arxiv.org/abs/2502.13117v1
Date: Tue, 18 Feb 2025 18:37:15 GMT
ステータス: 翻訳完了
システム内更新日: 2025-02-19 20:12:09.129992
Title: Performance Evaluation of Large Language Models in Statistical Programming
Title（参考訳）: 統計的プログラミングにおける大規模言語モデルの性能評価
Authors: Xinyi Song, Kexin Xie, Lina Lee, Ruizhe Chen, Jared M. Clark, Hao He, Haoran He, Jie Min, Xinlei Zhang, Simin Zheng, Zhiyang Zhang, Xinwei Deng, Yili Hong,
Abstract要約: 大規模言語モデル(LLM)は、自動コード生成に革命をもたらし、自動統計解析のための新しい道を開いた。統計的解析のためのSASプログラミング分野において,ChatGPTの2バージョンとLlamaの1バージョンを含むLLMの性能を評価する。我々は,LLMが生成するSASコードの品質を,正確性,有効性,可読性,実行可能性,出力結果の正確性に基づいて総合的に評価する。
参考スコア（独自算出の注目度）: 9.333703895770913
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The programming capabilities of large language models (LLMs) have revolutionized automatic code generation and opened new avenues for automatic statistical analysis. However, the validity and quality of these generated codes need to be systematically evaluated before they can be widely adopted. Despite their growing prominence, a comprehensive evaluation of statistical code generated by LLMs remains scarce in the literature. In this paper, we assess the performance of LLMs, including two versions of ChatGPT and one version of Llama, in the domain of SAS programming for statistical analysis. Our study utilizes a set of statistical analysis tasks encompassing diverse statistical topics and datasets. Each task includes a problem description, dataset information, and human-verified SAS code. We conduct a comprehensive assessment of the quality of SAS code generated by LLMs through human expert evaluation based on correctness, effectiveness, readability, executability, and the accuracy of output results. The analysis of rating scores reveals that while LLMs demonstrate usefulness in generating syntactically correct code, they struggle with tasks requiring deep domain understanding and may produce redundant or incorrect results. This study offers valuable insights into the capabilities and limitations of LLMs in statistical programming, providing guidance for future advancements in AI-assisted coding systems for statistical analysis.
Abstract（参考訳）: 大規模言語モデル(LLM)のプログラミング能力は、自動コード生成に革命をもたらし、自動統計解析のための新しい道を開いた。しかし、これらの生成されたコードの有効性と品質は、広く採用される前に体系的に評価する必要がある。その顕著さにもかかわらず、LLMが生成する統計符号の総合的な評価は文献にはほとんど残っていない。本稿では,統計的解析のためのSASプログラミング分野において,ChatGPTの2バージョンとLlamaの1バージョンを含むLLMの性能を評価する。本研究は,多種多様な統計トピックとデータセットを含む統計分析タスクのセットを利用する。各タスクには、問題記述、データセット情報、人間検証されたSASコードが含まれる。我々は,LLMが生成するSASコードの品質を,正確性,有効性,可読性,実行可能性,出力結果の正確性に基づいて総合的に評価する。評価スコアの分析では、LLMは構文的に正しいコードを生成するのに有用であるが、深いドメイン理解を必要とするタスクに苦労し、冗長あるいは誤った結果を生み出す可能性があることが示されている。この研究は、統計プログラミングにおけるLLMの機能と限界に関する貴重な洞察を提供し、統計解析のためのAI支援符号化システムの今後の進歩のためのガイダンスを提供する。

関連論文リスト

Can LLM Reasoning Be Trusted? A Comparative Study: Using Human Benchmarking on Statistical Tasks [1.5020330976600735]
大規模言語モデル(LLM)は、統計的タスクと推論の質を評価する能力を解決する。我々は、その統計的推論能力を高めるために、特別に開発されたデータセット上で、選択したオープンソースLLMを微調整した。この結果から, 精密調整モデルでは, 統計学の学生に匹敵する高度統計処理の精度が向上していることがわかった。
論文参考訳（メタデータ） (2026-01-20T21:01:08Z)
IDA-Bench: Evaluating LLMs on Interactive Guided Data Analysis [60.32962597618861]
IDA-Benchは、多ラウンドの対話シナリオで大規模言語モデルを評価する新しいベンチマークである。エージェント性能は、最終的な数値出力と人間由来のベースラインを比較して判断する。最先端のコーディングエージェント(Claude-3.7-thinkingなど)でさえ50%のタスクを成功させ、シングルターンテストでは明らかでない制限を強調している。
論文参考訳（メタデータ） (2025-05-23T09:37:52Z)
Synthetic Code Surgery: Repairing Bugs and Vulnerabilities with LLMs and Synthetic Data [0.0]
本稿では,Large Language Models(LLMs)を用いた合成データ生成によるAPR(Automated Program repair)の向上手法を提案する。提案手法は, 合成試料生成と厳密な品質評価という2段階のプロセスを通じて, この制限に対処する。 VulRepairテストセットデータセットの実験評価では、完全予測率の統計的に有意な改善が見られた。
論文参考訳（メタデータ） (2025-05-12T09:14:20Z)
Evaluating Intermediate Reasoning of Code-Assisted Large Language Models for Mathematics [15.695635219034328]
我々は,コード支援型LCM生成プログラムを,数理推論タスクに応答して詳細に解析する。この結果から, モデルの性能が, 問題の解法として実装された論理に大きく影響していることが示唆された。
論文参考訳（メタデータ） (2025-04-24T15:34:24Z)
Benchmarking Large Language Models for Multi-Language Software Vulnerability Detection [15.026084450436976]
本稿では,ソフトウェア脆弱性検出タスクにおいて,大規模言語モデル(LLM)の性能を評価する。 Pythonで8,260の脆弱な関数、Javaで7,505、JavaScriptで28,983のデータセットをコンパイルしました。これらのLSMは、5つの微調整された小さな言語モデルと2つのオープンソースの静的アプリケーションセキュリティテストツールに対してベンチマークされる。
論文参考訳（メタデータ） (2025-03-03T11:56:00Z)
StatLLM: A Dataset for Evaluating the Performance of Large Language Models in Statistical Analysis [2.5541378136265047]
StatLLMは、統計解析において大規模言語モデルの性能を評価するためのオープンソースのデータセットである。最初のコンポーネントは、さまざまな分析とデータセットにまたがる統計分析タスクを含む。第2のコンポーネントは、ChatGPT 3.5、ChatGPT 4.0、Llama 3.1によって生成されたSASコードである。第3のコンポーネントは、LLM生成コードの正確性、有効性、可読性、実行可能性、出力精度を評価するための、人間の専門家による評価スコアを含んでいる。
論文参考訳（メタデータ） (2025-02-24T21:11:20Z)
An Analyst-Inspector Framework for Evaluating Reproducibility of LLMs in Data Science [5.064778712920176]
LLM(Large Language Models)は、コード生成によるデータサイエンスタスクの可能性を示している。 LLM生成データサイエンスを自動評価・実施する新しいアナリスト・インスペクタフレームワークを提案する。
論文参考訳（メタデータ） (2025-02-23T01:15:50Z)
SURGE: On the Potential of Large Language Models as General-Purpose Surrogate Code Executors [0.0]
大規模言語モデル(LLM)は、コード理解やコード生成など、コード関連のタスクにおいて顕著な機能を示している。しかしながら、LLMが汎用的なサロゲートコードエグゼキュータとして機能するかどうかについても、同様に重要で未解明の疑問がある。本研究は,LLMを代用コード実行子として使用することの実現可能性に関する実証的な知見を提供する。
論文参考訳（メタデータ） (2025-02-16T15:38:19Z)
Context is Key: A Benchmark for Forecasting with Essential Textual Information [87.3175915185287]
コンテキスト is Key" (CiK) は、数値データを多種多様なテキストコンテキストと組み合わせた予測ベンチマークである。我々は,統計モデル,時系列基礎モデル,LLMに基づく予測モデルなど,さまざまなアプローチを評価する。提案手法は,提案するベンチマークにおいて,他の試験手法よりも優れる簡易かつ効果的なLCMプロンプト法である。
論文参考訳（メタデータ） (2024-10-24T17:56:08Z)
A Survey on Evaluating Large Language Models in Code Generation Tasks [30.256255254277914]
本稿では,コード生成タスクにおけるLarge Language Models (LLMs) の性能評価に使用される現在の手法と指標について概説する。自動ソフトウェア開発の需要が急速に増加し、LLMはコード生成の分野で大きな可能性を示してきた。
論文参考訳（メタデータ） (2024-08-29T12:56:06Z)
SIaM: Self-Improving Code-Assisted Mathematical Reasoning of Large Language Models [54.78329741186446]
本稿では,コードに基づく批判モデルを用いて,質問コードデータ構築,品質管理,補完的評価などのステップをガイドする新しいパラダイムを提案する。英語と中国語におけるドメイン内ベンチマークとドメイン外ベンチマークの両方の実験は、提案したパラダイムの有効性を実証している。
論文参考訳（メタデータ） (2024-08-28T06:33:03Z)
Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。 GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文参考訳（メタデータ） (2024-06-12T02:23:51Z)
Evaluating Mathematical Reasoning Beyond Accuracy [50.09931172314218]
推論ステップの品質を評価するための新しい方法論であるReasonEvalを紹介します。 ReasonEvalはメタ評価データセットのベースライン手法よりも一貫して優れていることを示す。我々は、ReasonEvalがデータ選択において重要な役割を果たすことを観察する。
論文参考訳（メタデータ） (2024-04-08T17:18:04Z)
Are LLMs Capable of Data-based Statistical and Causal Reasoning? Benchmarking Advanced Quantitative Reasoning with Data [89.2410799619405]
実世界のデータを用いた統計的および因果推論において,大規模言語モデルの能力を評価するために,データベンチマークを用いた定量的推論を導入する。このベンチマークは、教科書、オンライン学習教材、学術論文のデータシートを伴う411の質問のデータセットで構成されている。データとテキストに対するモデルの量的推論能力を比較するために、ベンチマークを290のテキストのみの質問、すなわちQRTextで強化する。
論文参考訳（メタデータ） (2024-02-27T16:15:03Z)
CLOMO: Counterfactual Logical Modification with Large Language Models [109.60793869938534]
本稿では,新しいタスク,CLOMO(Counterfactual Logical Modification)と高品質な人間アノテーションベンチマークを紹介する。このタスクでは、LLMは所定の論理的関係を維持するために、与えられた議論的テキストを順応的に変更しなければなりません。 LLMの自然言語出力を直接評価する革新的な評価指標である自己評価スコア(SES)を提案する。
論文参考訳（メタデータ） (2023-11-29T08:29:54Z)
How Does Naming Affect LLMs on Code Analysis Tasks? [8.150719423943109]
自然言語処理(NLP)において,Large Language Models (LLMs) が提案され,汎用言語モデルとして有望な結果が得られた。本稿では,コード解析タスクにおける命名がLLMに与える影響について検討する。
論文参考訳（メタデータ） (2023-07-24T02:38:24Z)
Sentiment Analysis in the Era of Large Language Models: A Reality Check [69.97942065617664]
本稿では,大規模言語モデル(LLM)の様々な感情分析タスクの実行能力について検討する。 26のデータセット上の13のタスクのパフォーマンスを評価し、ドメイン固有のデータセットに基づいて訓練された小言語モデル(SLM)と比較した。
論文参考訳（メタデータ） (2023-05-24T10:45:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。