論文の概要: Has the Deep Neural Network learned the Stochastic Process? An Evaluation Viewpoint
- arxiv url: http://arxiv.org/abs/2402.15163v4
- Date: Sat, 25 Jan 2025 07:23:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-28 21:57:03.185527
- Title: Has the Deep Neural Network learned the Stochastic Process? An Evaluation Viewpoint
- Title(参考訳): 深部ニューラルネットワークは確率過程を学習したか? : 評価の観点から
- Authors: Harshit Kumar, Beomseok Kang, Biswadeep Chakraborty, Saibal Mukhopadhyay,
- Abstract要約: 本稿では,Deep Neural Networks (DNN) の評価に関する最初の体系的研究について述べる。
従来の評価手法は,観測対象の真実を再現するDNNの能力を評価するが,基礎となる過程を測ることができないことを示す。
我々は、F2SP(Fidelity toGT Process)と呼ばれる新しい評価基準を提案する。
- 参考スコア(独自算出の注目度): 17.897121328003617
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper presents the first systematic study of evaluating Deep Neural Networks (DNNs) designed to forecast the evolution of stochastic complex systems. We show that traditional evaluation methods like threshold-based classification metrics and error-based scoring rules assess a DNN's ability to replicate the observed ground truth but fail to measure the DNN's learning of the underlying stochastic process. To address this gap, we propose a new evaluation criterion called Fidelity to Stochastic Process (F2SP), representing the DNN's ability to predict the system property Statistic-GT--the ground truth of the stochastic process--and introduce an evaluation metric that exclusively assesses F2SP. We formalize F2SP within a stochastic framework and establish criteria for validly measuring it. We formally show that Expected Calibration Error (ECE) satisfies the necessary condition for testing F2SP, unlike traditional evaluation methods. Empirical experiments on synthetic datasets, including wildfire, host-pathogen, and stock market models, demonstrate that ECE uniquely captures F2SP. We further extend our study to real-world wildfire data, highlighting the limitations of conventional evaluation and discuss the practical utility of incorporating F2SP into model assessment. This work offers a new perspective on evaluating DNNs modeling complex systems by emphasizing the importance of capturing the underlying stochastic process.
- Abstract(参考訳): 本稿では、確率的複雑系の進化を予測するために設計されたディープニューラルネットワーク(DNN)を評価するための最初の体系的研究について述べる。
しきい値に基づく分類基準や誤差に基づく評価規則のような従来の評価手法は、観測された地上の真実を再現するDNNの能力を評価するが、基礎となる確率過程に関するDNNの学習を測ることができないことを示す。
このギャップに対処するために、DNNのシステム特性予測能力を表すF2SP(Fidelity to Stochastic Process)と呼ばれる新しい評価基準を提案する。
確率的枠組みでF2SPを定式化し,有効測定基準を確立する。
我々は,従来の評価手法とは異なり,期待校正誤差(ECE)がF2SPテストに必要な条件を満たすことを示す。
野生火、宿主病原体、株式市場モデルを含む合成データセットに関する実証実験は、ECEがF2SPを独自に捉えることを実証している。
さらに,本研究を実世界の山火事データに拡張し,従来の評価の限界を強調し,F2SPをモデル評価に組み込むことの実用性について議論する。
この研究は、基礎となる確率過程を捉えることの重要性を強調することで、複雑なシステムをモデル化するDNNの新たな視点を提供する。
関連論文リスト
- The Lessons of Developing Process Reward Models in Mathematical Reasoning [62.165534879284735]
Process Reward Models (PRM) は、推論プロセスにおける中間エラーを特定し、緩和することを目的としている。
我々は,モンテカルロ (MC) 推定とLarge Language Models (LLM) を効果的に統合するコンセンサスフィルタリング機構を開発した。
私たちは、既存のオープンソース代替品よりも優れた、最先端のPRMを新たにリリースしています。
論文 参考訳(メタデータ) (2025-01-13T13:10:16Z) - Average-Over-Time Spiking Neural Networks for Uncertainty Estimation in Regression [3.409728296852651]
本稿では,AOT-SNN(Average-Over-Time Spiking Neural Network)フレームワークを回帰タスクに適用する2つの手法を提案する。
おもちゃのデータセットといくつかのベンチマークデータセットの両方に対して、我々のアプローチを評価します。
論文 参考訳(メタデータ) (2024-11-29T23:13:52Z) - Quantifying calibration error in modern neural networks through evidence based theory [0.0]
本稿では、予測エラー(ECE)の評価に主観的論理を組み込むことにより、ニューラルネットワークの信頼性を定量化する新しい枠組みを提案する。
我々は,MNISTおよびCIFAR-10データセットを用いた実験により,信頼性が向上したことを示す。
提案されたフレームワークは、医療や自律システムといったセンシティブな分野における潜在的な応用を含む、AIモデルのより解釈可能でニュアンスな評価を提供する。
論文 参考訳(メタデータ) (2024-10-31T23:54:21Z) - A Probabilistic Perspective on Unlearning and Alignment for Large Language Models [48.96686419141881]
大規模言語モデル(LLM)のための最初の形式的確率的評価フレームワークを紹介する。
すなわち,モデルの出力分布に関する確率保証の高い新しい指標を提案する。
私たちのメトリクスはアプリケーションに依存しないので、デプロイ前にモデル機能についてより信頼性の高い見積を行うことができます。
論文 参考訳(メタデータ) (2024-10-04T15:44:23Z) - Benchmarks as Microscopes: A Call for Model Metrology [76.64402390208576]
現代の言語モデル(LM)は、能力評価において新たな課題を提起する。
メトリクスに自信を持つためには、モデルミアロジの新たな規律が必要です。
論文 参考訳(メタデータ) (2024-07-22T17:52:12Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - The Significance of Latent Data Divergence in Predicting System Degradation [1.2058600649065616]
条件ベースのメンテナンスは、エンジニアリングシステムにおける潜在的な障害を早期に検出する上で、重要である。
本稿では,システムコンポーネントの潜在データ内における統計的類似性の分析を基礎とした新しい手法を提案する。
システム間の類似性は、これらの先行の相違を評価し、個々のシステム行動の微妙な理解を提供することによって推測する。
論文 参考訳(メタデータ) (2024-06-13T11:41:20Z) - A Bayesian Unification of Self-Supervised Clustering and Energy-Based
Models [11.007541337967027]
我々は、最先端の自己教師型学習目標のベイズ分析を行う。
目的関数が既存の自己教師型学習戦略より優れていることを示す。
また、GEDIをニューロシンボリックな枠組みに統合できることを実証した。
論文 参考訳(メタデータ) (2023-12-30T04:46:16Z) - From Reactive to Proactive Volatility Modeling with Hemisphere Neural Networks [0.0]
我々は,新しいニューラルネットワークアーキテクチャを用いて,マクロ経済密度予測のための最大推定値(MLE)を再活性化する。
ヘミスフィアニューラルネットワーク(HNN)は、可能時の主指標に基づく積極的なボラティリティ予測と、必要時の過去の予測誤差の大きさに基づく反応性ボラティリティ予測を提供する。
論文 参考訳(メタデータ) (2023-11-27T21:37:50Z) - Understanding, Predicting and Better Resolving Q-Value Divergence in
Offline-RL [86.0987896274354]
まず、オフラインRLにおけるQ値推定のばらつきの主な原因として、基本パターン、自己励起を同定する。
そこで本研究では,Q-network の学習における進化特性を測定するために,SEEM(Self-Excite Eigen Value Measure)尺度を提案する。
われわれの理論では、訓練が早期に発散するかどうかを確実に決定できる。
論文 参考訳(メタデータ) (2023-10-06T17:57:44Z) - Amortised Inference in Bayesian Neural Networks [0.0]
Amortized Pseudo-Observation Variational Inference Bayesian Neural Network (APOVI-BNN)を紹介する。
補正された推論は、従来の変分推論によって得られたものと類似または良好な品質であることが示される。
次に、APOVI-BNNをニューラルプロセスファミリーの新たなメンバーと見なす方法について論じる。
論文 参考訳(メタデータ) (2023-09-06T14:02:33Z) - Expectation consistency for calibration of neural networks [24.073221004661427]
期待整合性(EC)という新しいキャリブレーション手法を導入する。
ECは、平均検証の信頼性が正しいラベルの平均比率と一致することを強制する。
我々は,ECが温度スケーリングを著しく上回る事例について論じる。
論文 参考訳(メタデータ) (2023-03-05T11:21:03Z) - Uncertainty Estimation by Fisher Information-based Evidential Deep
Learning [61.94125052118442]
不確実性推定は、ディープラーニングを実用アプリケーションで信頼できるものにする鍵となる要素である。
漁業情報に基づくエビデンシャルディープラーニング(mathcalI$-EDL)を提案する。
特に,各サンプルが有する証拠の情報量を測定するためにFisher Information Matrix (FIM)を導入し,目的的損失項を動的に重み付けし,不確実なクラスの表現学習に集中させる。
論文 参考訳(メタデータ) (2023-03-03T16:12:59Z) - Exploring validation metrics for offline model-based optimisation with
diffusion models [50.404829846182764]
モデルベース最適化(MBO)では、マシンラーニングを使用して、(基底真理)オラクルと呼ばれるブラックボックス関数に対する報酬の尺度を最大化する候補を設計することに興味があります。
モデル検証中に基底オラクルに対する近似をトレーニングし、その代わりに使用することができるが、その評価は近似的であり、敵の例に対して脆弱である。
本手法は,外挿量を測定するために提案した評価フレームワークにカプセル化されている。
論文 参考訳(メタデータ) (2022-11-19T16:57:37Z) - Robust Deep Learning for Autonomous Driving [0.0]
モデル信頼度を確実に推定する新しい基準を導入する:真のクラス確率(TCP)
真のクラスは本質的にテスト時に未知であるため、補助モデルを用いてデータからTCPの基準を学習し、この文脈に適応した特定の学習スキームを導入することを提案する。
本研究は, 既知モデルに基づく新たな不確実性尺度を導入することで, 誤分類と分布外サンプルを共同で検出する課題に対処する。
論文 参考訳(メタデータ) (2022-11-14T22:07:11Z) - Evaluating Disentanglement in Generative Models Without Knowledge of
Latent Factors [71.79984112148865]
本稿では,学習中に提示される学習力学に基づいて生成モデルのランキング付けを行う手法を提案する。
本手法は,近年の解離の理論的特徴から着想を得たものであり,その根底にある潜伏因子の監督は不要である。
論文 参考訳(メタデータ) (2022-10-04T17:27:29Z) - New Machine Learning Techniques for Simulation-Based Inference:
InferoStatic Nets, Kernel Score Estimation, and Kernel Likelihood Ratio
Estimation [4.415977307120616]
確率密度を標本化できるが直接計算できない場合のスコアと確率比推定器をモデル化する機械学習手法を提案する。
我々はそれぞれKernel Score Estimation (KSE) と Kernel Likelihood Ratio Estimation (KLRE) と呼ばれる新しい戦略を導入し、シミュレーションデータからスコアと確率比関数を学習する。
論文 参考訳(メタデータ) (2022-10-04T15:22:56Z) - Neural Causal Models for Counterfactual Identification and Estimation [62.30444687707919]
本稿では,ニューラルモデルによる反事実文の評価について検討する。
まず、神経因果モデル(NCM)が十分に表現可能であることを示す。
第2に,反事実分布の同時同定と推定を行うアルゴリズムを開発する。
論文 参考訳(メタデータ) (2022-09-30T18:29:09Z) - A Unified Contrastive Energy-based Model for Understanding the
Generative Ability of Adversarial Training [64.71254710803368]
Adversarial Training (AT) は、ディープニューラルネットワークの堅牢性を高める効果的なアプローチである。
我々は、Contrastive Energy-based Models(CEM)と呼ばれる統合確率的枠組みを開発することにより、この現象をデミステレーションする。
本稿では,逆学習法とサンプリング法を開発するための原則的手法を提案する。
論文 参考訳(メタデータ) (2022-03-25T05:33:34Z) - NUQ: Nonparametric Uncertainty Quantification for Deterministic Neural
Networks [151.03112356092575]
本研究では,Nadaraya-Watson の条件付きラベル分布の非パラメトリック推定に基づく分類器の予測の不確かさの測定方法を示す。
種々の実世界の画像データセットにおける不確実性推定タスクにおいて,本手法の強い性能を示す。
論文 参考訳(メタデータ) (2022-02-07T12:30:45Z) - Cross Learning in Deep Q-Networks [82.20059754270302]
本稿では、値に基づく強化学習手法において、よく知られた過大評価問題を緩和することを目的とした、新しいクロスQ-ラーニングアルゴリズムを提案する。
本アルゴリズムは,並列モデルの集合を維持し,ランダムに選択されたネットワークに基づいてQ値を算出することによって,二重Q-ラーニングに基づいて構築する。
論文 参考訳(メタデータ) (2020-09-29T04:58:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。