論文の概要: Can LLM Reasoning Be Trusted? A Comparative Study: Using Human Benchmarking on Statistical Tasks
- arxiv url: http://arxiv.org/abs/2601.14479v1
- Date: Tue, 20 Jan 2026 21:01:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.154006
- Title: Can LLM Reasoning Be Trusted? A Comparative Study: Using Human Benchmarking on Statistical Tasks
- Title(参考訳): LLM推論は信頼できるか? 統計的課題に対する人間ベンチマークを用いた比較研究
- Authors: Crish Nagarkar, Leonid Bogachev, Serge Sharoff,
- Abstract要約: 大規模言語モデル(LLM)は、統計的タスクと推論の質を評価する能力を解決する。
我々は、その統計的推論能力を高めるために、特別に開発されたデータセット上で、選択したオープンソースLLMを微調整した。
この結果から, 精密調整モデルでは, 統計学の学生に匹敵する高度統計処理の精度が向上していることがわかった。
- 参考スコア(独自算出の注目度): 1.5020330976600735
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper investigates the ability of large language models (LLMs) to solve statistical tasks, as well as their capacity to assess the quality of reasoning. While state-of-the-art LLMs have demonstrated remarkable performance in a range of NLP tasks, their competence in addressing even moderately complex statistical challenges is not well understood. We have fine-tuned selected open-source LLMs on a specially developed dataset to enhance their statistical reasoning capabilities, and compared their performance with the human scores used as a benchmark. Our results show that the fine-tuned models achieve better performance on advanced statistical tasks on the level comparable to a statistics student. Fine-tuning demonstrates architecture-dependent improvements, with some models showing significant performance gains, indicating clear potential for deployment in educational technology and statistical analysis assistance systems. We also show that LLMs themselves can be far better judges of the answers quality (including explanation and reasoning assessment) in comparison to traditional metrics, such as BLEU or BertScore. This self-evaluation capability enables scalable automated assessment for statistical education platforms and quality assurance in automated analysis tools. Potential applications also include validation tools for research methodology in academic and industry settings, and quality control mechanisms for data analysis workflows.
- Abstract(参考訳): 本稿では,大規模言語モデル(LLM)が統計的タスクを解く能力と,推論の質を評価する能力について検討する。
最先端のLSMは、様々なNLPタスクにおいて顕著な性能を示してきたが、その適度に複雑な統計的課題に対処する能力はよく理解されていない。
我々は、その統計的推論能力を高めるために特別に開発されたデータセット上で、選択したオープンソースLCMを微調整し、その性能をベンチマークとして使用する人的スコアと比較した。
この結果から, 精密調整モデルでは, 統計学の学生に匹敵する高度統計処理の精度が向上していることがわかった。
ファインチューニングはアーキテクチャに依存した改善を示し、いくつかのモデルは大きなパフォーマンス向上を示し、教育技術や統計分析支援システムへの展開の可能性を示している。
また,LLM自体がBLEUやBertScoreといった従来の指標と比較して,回答の品質(説明と推論評価を含む)をはるかによく判断できることを示す。
この自己評価機能は、統計教育プラットフォームのためのスケーラブルな自動評価と、自動分析ツールの品質保証を可能にする。
潜在的なアプリケーションには、学術および産業における研究方法論の検証ツールや、データ分析ワークフローの品質管理メカニズムも含まれている。
関連論文リスト
- Automated Analysis of Sustainability Reports: Using Large Language Models for the Extraction and Prediction of EU Taxonomy-Compliant KPIs [21.656551146954587]
大規模言語モデル(LLM)は自動化への道筋を提供する。
190の企業レポートから,新たな構造化データセットを導入する。
その結果,定性的タスクと量的タスクの間に明らかなパフォーマンスギャップが明らかとなった。
論文 参考訳(メタデータ) (2025-12-30T15:28:03Z) - BEATS: Bias Evaluation and Assessment Test Suite for Large Language Models [0.0]
我々は、大規模言語モデル(LLM)におけるバイアス、倫理、公平性、現実性を評価するための新しいフレームワークBEATSを紹介する。
LLMのバイアスベンチマークを行い、29の異なるメトリクスのパフォーマンスを計測する。
これらの指標は、人口統計学、認知学、社会的偏見、倫理的推論、グループフェアネス、事実に関する誤情報リスクなど、幅広い特徴に及びます。
論文 参考訳(メタデータ) (2025-03-31T16:56:52Z) - An Overview of Large Language Models for Statisticians [109.38601458831545]
大規模言語モデル(LLM)は人工知能(AI)の変換ツールとして登場した。
本稿では, 統計学者がLLMの開発に重要な貢献できる可能性について考察する。
我々は不確実性定量化、解釈可能性、公正性、プライバシー、透かし、モデル適応といった問題に焦点を当てる。
論文 参考訳(メタデータ) (2025-02-25T03:40:36Z) - Performance Evaluation of Large Language Models in Statistical Programming [9.333703895770913]
大規模言語モデル(LLM)は、自動コード生成に革命をもたらし、自動統計解析のための新しい道を開いた。
統計的解析のためのSASプログラミング分野において,ChatGPTの2バージョンとLlamaの1バージョンを含むLLMの性能を評価する。
我々は,LLMが生成するSASコードの品質を,正確性,有効性,可読性,実行可能性,出力結果の正確性に基づいて総合的に評価する。
論文 参考訳(メタデータ) (2025-02-18T18:37:15Z) - Are Large Language Models Good Statisticians? [10.42853117200315]
StatQAは統計解析タスク用に設計された新しいベンチマークである。
GPT-4oのような最先端モデルでさえ、64.83%の最高の性能を実現していることを示す。
オープンソースのLLMは限られた能力を示すが、細調整されたものは顕著に改善されている。
論文 参考訳(メタデータ) (2024-06-12T02:23:51Z) - Comprehensive Reassessment of Large-Scale Evaluation Outcomes in LLMs: A Multifaceted Statistical Approach [64.42462708687921]
評価の結果、スケーリング、トレーニングタイプ、アーキテクチャなどの要因がLLMのパフォーマンスに大きな影響を与えていることが明らかになった。
本研究は, これらのLCMの徹底的な再検討に着手し, 現状評価手法における不整合性に着目した。
これには、ANOVA、Tukey HSDテスト、GAMM、クラスタリング技術などが含まれる。
論文 参考訳(メタデータ) (2024-03-22T14:47:35Z) - Weak Supervision Performance Evaluation via Partial Identification [46.73061437177238]
Programmatic Weak Supervision (PWS) は、地上の真理ラベルに直接アクセスすることなく、教師付きモデルトレーニングを可能にする。
本稿では,モデル評価を部分的同定問題としてフレーミングすることで,この問題に対処する新しい手法を提案する。
提案手法は,従来の弱監督評価手法において,ラベル付きデータを必要とせず,重要な指標に信頼性のあるバウンダリを導出する。
論文 参考訳(メタデータ) (2023-12-07T07:15:11Z) - From Quantity to Quality: Boosting LLM Performance with Self-Guided Data Selection for Instruction Tuning [52.257422715393574]
本稿では,Large Language Models (LLMs) の自己誘導手法を導入し,オープンソースデータセットからサクラサンプルを自動識別し,選択する。
我々の重要な革新である命令追従困難度(IFD)メトリックは、モデルが期待する応答と本質的な生成能力の相違を識別するための重要な指標として現れます。
論文 参考訳(メタデータ) (2023-08-23T09:45:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。