論文の概要: Benchmarking Reasoning Reliability in Artificial Intelligence Models for Energy-System Analysis
- arxiv url: http://arxiv.org/abs/2510.19836v1
- Date: Thu, 16 Oct 2025 14:59:41 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-25 03:08:16.31912
- Title: Benchmarking Reasoning Reliability in Artificial Intelligence Models for Energy-System Analysis
- Title(参考訳): エネルギーシステム解析のための人工知能モデルにおける信頼性のベンチマーク
- Authors: Eliseo Curcio,
- Abstract要約: 本研究では、エネルギーシステム解析に適用された大規模言語モデルにおける推論信頼性を定量化する再現可能なフレームワークであるAnalytical Reliability Benchmark(ARB)を紹介する。
GPT-4/5とClaude 4.5 Sonnetは、一貫性とポリシーに準拠した推論を実現した。
ARBは、因果関係、確率的、および政策駆動推論を検証するための、エネルギー文学における最初の定量的手法を確立している。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Artificial intelligence and machine learning are increasingly used for forecasting, optimization, and policy design in the energy sector, yet no standardized framework exists to evaluate whether these systems reason correctly. Current validation practices focus on predictive accuracy or computational efficiency, leaving the logical integrity of analytical conclusions untested. This study introduces the Analytical Reliability Benchmark (ARB), a reproducible framework that quantifies reasoning reliability in large language models applied to energy system analysis. The benchmark integrates five submetrics: accuracy, reasoning reliability, uncertainty discipline, policy consistency, and transparency, and evaluates model performance across deterministic, probabilistic, and epistemic scenarios using open technoeconomic datasets (NREL ATB 2024, DOE H2A/H2New, IEA WEO 2024). Four frontier models (GPT-4/5, Claude 4.5 Sonnet, Gemini 2.5 Pro, Llama 3 70B) were tested under identical factual and regulatory conditions. Results show that reasoning reliability can be objectively measured. GPT-4/5 and Claude 4.5 Sonnet achieved consistent and policy-compliant reasoning (Analytical Reliability Index greater than 90), Gemini 2.5 Pro demonstrated moderate stability, and Llama 3 70B remained below professional thresholds. Statistical validation confirmed that these differences are significant and reproducible. The ARB establishes the first quantitative method in the energy literature for verifying causal, probabilistic, and policy-driven reasoning in artificial intelligence systems, providing a reference framework for trustworthy and transparent analytical applications in the global energy transition.
- Abstract(参考訳): 人工知能と機械学習は、エネルギーセクターの予測、最適化、ポリシー設計にますます使われていますが、これらのシステムが正しい理由を持つかどうかを評価するための標準化されたフレームワークはありません。
現在の検証手法は予測精度や計算効率に重点を置いており、分析的結論の論理的完全性は証明されていない。
本研究では、エネルギーシステム解析に適用された大規模言語モデルにおける推論信頼性を定量化する再現可能なフレームワークであるAnalytical Reliability Benchmark(ARB)を紹介する。
このベンチマークは、正確性、推論信頼性、不確実性規律、ポリシーの整合性、透明性の5つのサブメトリックを統合し、オープン技術経済データセット(NREL ATB 2024, DOE H2A/H2New, IEA WEO 2024)を使用して決定論的、確率的、および疫学的シナリオにわたるモデルパフォーマンスを評価する。
4つのフロンティアモデル(GPT-4/5、Claude 4.5 Sonnet、Gemini 2.5 Pro、Llama 3 70B)は、同じ事実および規制条件下で試験された。
その結果,推理信頼性は客観的に測定できることが示唆された。
GPT-4/5とClaude 4.5 Sonnetは、一貫性とポリシーに準拠した推論(分析信頼性指数が90以上)、Gemini 2.5 Proは適度な安定性を示し、Llama 3 70Bはプロのしきい値を下回った。
統計的検証により、これらの違いは重要で再現可能であることが確認された。
ARBは、人工知能システムにおける因果的、確率的、およびポリシー駆動推論を検証するためのエネルギー文学における最初の定量的手法を確立し、グローバルエネルギー移行における信頼できる、透明な分析的応用のための参照フレームワークを提供する。
関連論文リスト
- PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-03T17:09:03Z) - Zero-shot reasoning for simulating scholarly peer-review [0.0]
本稿では、AI生成ピアレビューレポートを評価するための、最初の安定的でエビデンスに基づく標準を提供する決定論的シミュレーションフレームワークについて検討する。
第一に、このシステムは校正された編集判断をシミュレートすることができ、「改訂」決定が一貫して多数決結果を形成する。
第二に、手続きの整合性を揺るぎないまま維持し、安定した29%の証明の遵守率を強制する。
論文 参考訳(メタデータ) (2025-10-02T13:59:14Z) - Mechanistic Interpretability as Statistical Estimation: A Variance Analysis of EAP-IG [10.620784202716404]
我々は,回路探索などの解釈可能性の手法を統計的推定器とみなすべきであると論じている。
本稿では,最先端回路探索手法であるEAP-IGの系統的安定性解析を行う。
論文 参考訳(メタデータ) (2025-10-01T12:55:34Z) - What Does Your Benchmark Really Measure? A Framework for Robust Inference of AI Capabilities [0.773472615056109]
ベンチマークデータに対する生成モデルの評価は今や至るところで行われている。
しかし、懐疑論の高まりはその信頼性を取り巻く。
報告された正確さがモデルの性能を真に反映しているとどうやってわかるのか?
このステップは、推論として評価するための原則的なフレームワークを提案することで明確化します。
論文 参考訳(メタデータ) (2025-09-23T21:29:04Z) - Trustworthy Reasoning: Evaluating and Enhancing Factual Accuracy in LLM Intermediate Thought Processes [16.451488374845407]
本稿では,Large Language Models(LLMs)における重大な脆弱性に対処する新しいフレームワークを提案する。
この現象は、医療、法的な分析、科学研究など、高度な領域に重大なリスクをもたらす。
論文 参考訳(メタデータ) (2025-07-25T10:34:51Z) - Reasoning Models Are More Easily Gaslighted Than You Think [85.84943447589511]
我々はOpenAIのo4-mini、Claude-3.7-Sonnet、Gemini-2.5-Flashの3つの最先端推論モデルを評価する。
ガス灯消火プロンプトによる精度低下が認められた。
GaslightingBench-Rは、推論モデルの認識可能性を評価するために設計された新しい診断ベンチマークである。
論文 参考訳(メタデータ) (2025-06-11T12:52:25Z) - Enhancing LLM Reliability via Explicit Knowledge Boundary Modeling [41.19330514054401]
大規模言語モデル(LLM)は、不一致の自己認識に起因する幻覚の傾向にある。
本稿では,高速かつ低速な推論システムを統合し,信頼性とユーザビリティを調和させる明示的知識境界モデリングフレームワークを提案する。
論文 参考訳(メタデータ) (2025-03-04T03:16:02Z) - Position: AI Evaluation Should Learn from How We Test Humans [65.36614996495983]
人間の評価のための20世紀起源の理論である心理測定は、今日のAI評価における課題に対する強力な解決策になり得る、と我々は主張する。
論文 参考訳(メタデータ) (2023-06-18T09:54:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。