論文の概要: StatWhy: Formal Verification Tool for Statistical Hypothesis Testing Programs
- arxiv url: http://arxiv.org/abs/2405.17492v1
- Date: Sat, 25 May 2024 05:07:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-30 00:00:30.045887
- Title: StatWhy: Formal Verification Tool for Statistical Hypothesis Testing Programs
- Title(参考訳): 統計的仮説テストプログラムのための形式検証ツールStatWhy
- Authors: Yusuke Kawamoto, Kentaro Kobayashi, Kohei Suenaga,
- Abstract要約: 本稿では,統計的プログラムの正当性を正式に特定し,自動検証する手法を提案する。
プログラマは、ソースコードにアノテートすることで、統計的メソッドの要求をチェックすることをリマインドされる。
StatWhyと呼ばれるソフトウェアツールは、プログラマが統計手法の要件を適切に指定したかどうかを自動的にチェックする。
- 参考スコア(独自算出の注目度): 0.9886108751871757
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Statistical methods have been widely misused and misinterpreted in various scientific fields, raising significant concerns about the integrity of scientific research. To develop techniques to mitigate this problem, we propose a new method for formally specifying and automatically verifying the correctness of statistical programs. In this method, programmers are reminded to check the requirements for statistical methods by annotating their source code. Then, a software tool called StatWhy automatically checks whether the programmers have properly specified the requirements for the statistical methods. This tool is implemented using the Why3 platform to verify the correctness of OCaml programs for statistical hypothesis testing. We demonstrate how StatWhy can be used to avoid common errors in a variety of popular hypothesis testing programs.
- Abstract(参考訳): 統計学的手法は様々な科学分野において広く誤用され、誤解され、科学的研究の完全性に関する重大な懸念が提起されている。
この問題を緩和する手法を開発するために,統計的プログラムの正当性を正式に特定し,自動検証する手法を提案する。
本手法では,ソースコードをアノテートすることで,統計的手法の要件を確認することをプログラマに促す。
そして、StatWhyと呼ばれるソフトウェアツールが、プログラマが統計的手法の要件を適切に指定したかどうかを自動的にチェックする。
このツールは、統計的仮説テストのためのOCamlプログラムの正当性を検証するために、Why3プラットフォームを用いて実装されている。
様々な仮説テストプログラムにおいて、StatWhyが一般的なエラーを避けるためにどのように使用できるかを実証する。
関連論文リスト
- Treatment of Statistical Estimation Problems in Randomized Smoothing for Adversarial Robustness [0.0]
ランダムな平滑化のための統計的推定問題について検討し,計算負担の有無を確かめる。
本稿では,標準手法と同じ統計的保証を享受する信頼度系列を用いた推定手法を提案する。
厳密な認証を行うために,Clopper-Pearson信頼区間のランダム化版を提供する。
論文 参考訳(メタデータ) (2024-06-25T14:00:55Z) - Evaluating the Effectiveness of Index-Based Treatment Allocation [42.040099398176665]
リソースが不足している場合には、リソースを誰が受け取るかを決定するためにアロケーションポリシーが必要である。
本稿では、ランダム化制御試験のデータを用いて、インデックスベースのアロケーションポリシーを評価する手法を提案する。
論文 参考訳(メタデータ) (2024-02-19T01:55:55Z) - "Would life be more interesting if I were in AI?" Answering
Counterfactuals based on Probabilistic Inductive Logic Programming [0.0]
本稿では,因果的クエリを許容する因果的フレームワークを用いて確率論的論理プログラムについて検討する。
観測データからプログラム構造を学習することは、統計検査に依存する探索によって行われるのが普通である。
本稿では,プログラムの帰納分布からプログラムを再構築する言語フラグメントを提案する。
論文 参考訳(メタデータ) (2023-08-30T09:03:45Z) - Applications of statistical causal inference in software engineering [2.969705152497174]
本稿では,統計的因果推論手法を適用したソフトウェア工学における既存の研究を概観する。
その結果,統計的因果推論手法の適用は比較的最近であり,それに対応する研究コミュニティは比較的断片的であることがわかった。
論文 参考訳(メタデータ) (2022-11-21T14:16:55Z) - Canary in a Coalmine: Better Membership Inference with Ensembled
Adversarial Queries [53.222218035435006]
私たちは、差別的で多様なクエリを最適化するために、逆ツールを使用します。
我々の改善は既存の方法よりもはるかに正確な会員推定を実現している。
論文 参考訳(メタデータ) (2022-10-19T17:46:50Z) - Sound and Relatively Complete Belief Hoare Logic for Statistical
Hypothesis Testing Programs [0.8103046443444949]
仮説テストによって得られた統計的信念を形式化し、推論するための信念 Hoare logic (BHL) を定義した。
このプログラム論理は、仮説テストのためのクリプキモデルに対して、健全で比較的完全である。
論文 参考訳(メタデータ) (2022-08-15T08:42:24Z) - Conformal prediction for the design problem [72.14982816083297]
機械学習の現実的な展開では、次にテストすべきデータを選択するために予測アルゴリズムを使用します。
このような設定では、トレーニングデータとテストデータの間には、異なるタイプの分散シフトがある。
このような環境で予測の不確実性を定量化する手法を提案する。
論文 参考訳(メタデータ) (2022-02-08T02:59:12Z) - Learn then Test: Calibrating Predictive Algorithms to Achieve Risk
Control [67.52000805944924]
Learn then Test (LTT)は、機械学習モデルを校正するフレームワークである。
私たちの主な洞察は、リスクコントロール問題を複数の仮説テストとして再設計することです。
我々は、コンピュータビジョンの詳細な実例を用いて、コア機械学習タスクの新しいキャリブレーション手法を提供するために、我々のフレームワークを使用します。
論文 参考訳(メタデータ) (2021-10-03T17:42:03Z) - Quantifying Uncertainty in Deep Spatiotemporal Forecasting [67.77102283276409]
本稿では,正規格子法とグラフ法という2種類の予測問題について述べる。
我々はベイジアンおよび頻繁な視点からUQ法を解析し、統計的決定理論を通じて統一的な枠組みを提示する。
実際の道路ネットワークのトラフィック、疫病、空気質予測タスクに関する広範な実験を通じて、異なるUQ手法の統計計算トレードオフを明らかにする。
論文 参考訳(メタデータ) (2021-05-25T14:35:46Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Showing Your Work Doesn't Always Work [73.63200097493576]
『Show Your Work: Improved Reporting of Experimental Results』では、最高の学習モデルの有効性を報告している。
解析的にそれらの推定器は偏りがあり、エラーを起こしやすい仮定を用いていることを示す。
我々は、偏見のない代替案を導き、統計的シミュレーションから経験的な証拠で主張を裏付ける。
論文 参考訳(メタデータ) (2020-04-28T17:59:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。