論文の概要: Has the Deep Neural Network learned the Stochastic Process? An Evaluation Viewpoint
- arxiv url: http://arxiv.org/abs/2402.15163v4
- Date: Sat, 25 Jan 2025 07:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 13:52:16.070217
- Title: Has the Deep Neural Network learned the Stochastic Process? An Evaluation Viewpoint
- Title(参考訳): 深部ニューラルネットワークは確率過程を学習したか? : 評価の観点から
- Authors: Harshit Kumar, Beomseok Kang, Biswadeep Chakraborty, Saibal Mukhopadhyay,
- Abstract要約: 本稿では,Deep Neural Networks (DNN) の評価に関する最初の体系的研究について述べる。
従来の評価手法は,観測対象の真実を再現するDNNの能力を評価するが,基礎となる過程を測ることができないことを示す。
我々は、F2SP(Fidelity toGT Process)と呼ばれる新しい評価基準を提案する。
- 参考スコア(独自算出の注目度): 17.897121328003617
- License:
- Abstract: This paper presents the first systematic study of evaluating Deep Neural Networks (DNNs) designed to forecast the evolution of stochastic complex systems. We show that traditional evaluation methods like threshold-based classification metrics and error-based scoring rules assess a DNN's ability to replicate the observed ground truth but fail to measure the DNN's learning of the underlying stochastic process. To address this gap, we propose a new evaluation criterion called Fidelity to Stochastic Process (F2SP), representing the DNN's ability to predict the system property Statistic-GT--the ground truth of the stochastic process--and introduce an evaluation metric that exclusively assesses F2SP. We formalize F2SP within a stochastic framework and establish criteria for validly measuring it. We formally show that Expected Calibration Error (ECE) satisfies the necessary condition for testing F2SP, unlike traditional evaluation methods. Empirical experiments on synthetic datasets, including wildfire, host-pathogen, and stock market models, demonstrate that ECE uniquely captures F2SP. We further extend our study to real-world wildfire data, highlighting the limitations of conventional evaluation and discuss the practical utility of incorporating F2SP into model assessment. This work offers a new perspective on evaluating DNNs modeling complex systems by emphasizing the importance of capturing the underlying stochastic process.
- Abstract(参考訳): 本稿では、確率的複雑系の進化を予測するために設計されたディープニューラルネットワーク(DNN)を評価するための最初の体系的研究について述べる。
しきい値に基づく分類基準や誤差に基づく評価規則のような従来の評価手法は、観測された地上の真実を再現するDNNの能力を評価するが、基礎となる確率過程に関するDNNの学習を測ることができないことを示す。
このギャップに対処するために、DNNのシステム特性予測能力を表すF2SP(Fidelity to Stochastic Process)と呼ばれる新しい評価基準を提案する。
確率的枠組みでF2SPを定式化し,有効測定基準を確立する。
我々は,従来の評価手法とは異なり,期待校正誤差(ECE)がF2SPテストに必要な条件を満たすことを示す。
野生火、宿主病原体、株式市場モデルを含む合成データセットに関する実証実験は、ECEがF2SPを独自に捉えることを実証している。
さらに,本研究を実世界の山火事データに拡張し,従来の評価の限界を強調し,F2SPをモデル評価に組み込むことの実用性について議論する。
この研究は、基礎となる確率過程を捉えることの重要性を強調することで、複雑なシステムをモデル化するDNNの新たな視点を提供する。
関連論文リスト
- The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Average-Over-Time Spiking Neural Networks for Uncertainty Estimation in Regression [3.409728296852651]
本稿では,AOT-SNN(Average-Over-Time Spiking Neural Network)フレームワークを回帰タスクに適用する2つの手法を提案する。
おもちゃのデータセットといくつかのベンチマークデータセットの両方に対して、我々のアプローチを評価します。
論文 参考訳(メタデータ) (2024-11-29T23:13:52Z) - Quantifying calibration error in modern neural networks through evidence based theory [0.0]
本稿では、予測エラー(ECE)の評価に主観的論理を組み込むことにより、ニューラルネットワークの信頼性を定量化する新しい枠組みを提案する。
我々は,MNISTおよびCIFAR-10データセットを用いた実験により,信頼性が向上したことを示す。
提案されたフレームワークは、医療や自律システムといったセンシティブな分野における潜在的な応用を含む、AIモデルのより解釈可能でニュアンスな評価を提供する。
論文 参考訳(メタデータ) (2024-10-31T23:54:21Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - From Reactive to Proactive Volatility Modeling with Hemisphere Neural Networks [0.0]
我々は,新しいニューラルネットワークアーキテクチャを用いて,マクロ経済密度予測のための最大推定値(MLE)を再活性化する。
ヘミスフィアニューラルネットワーク(HNN)は、可能時の主指標に基づく積極的なボラティリティ予測と、必要時の過去の予測誤差の大きさに基づく反応性ボラティリティ予測を提供する。
論文 参考訳(メタデータ) (2023-11-27T21:37:50Z) - Amortised Inference in Bayesian Neural Networks [0.0]
Amortized Pseudo-Observation Variational Inference Bayesian Neural Network (APOVI-BNN)を紹介する。
補正された推論は、従来の変分推論によって得られたものと類似または良好な品質であることが示される。
次に、APOVI-BNNをニューラルプロセスファミリーの新たなメンバーと見なす方法について論じる。
論文 参考訳(メタデータ) (2023-09-06T14:02:33Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。