論文の概要: To BEE or not to BEE: Estimating more than Entropy with Biased Entropy Estimators
- arxiv url: http://arxiv.org/abs/2501.11395v1
- Date: Mon, 20 Jan 2025 10:48:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:23:00.825299
- Title: To BEE or not to BEE: Estimating more than Entropy with Biased Entropy Estimators
- Title(参考訳): BEEにせよBEEにせよ - Biased Entropy Estimatorによるエントロピー以上の推定
- Authors: Ilaria Pia la Torre, David A. Kelly, Hector D. Menendez, David Clark,
- Abstract要約: ソフトウェアエンジニアにとって有用なシャノン測度に対して,広く採用されている18のエントロピー推定器を適用した。
本研究は,サンプルサイズとドメインサイズという2つの大きな影響要因から推定値がどのように影響を受けるかを検討する。
私たちの最も重要な結果は、Chao-Shen と Chao-Wang-Jost の見積もり者が、より早く地上の真実に収束していることを明らかにすることです。
- 参考スコア(独自算出の注目度): 0.3669506968635671
- License:
- Abstract: Entropy estimation plays a significant role in biology, economics, physics, communication engineering and other disciplines. It is increasingly used in software engineering, e.g. in software confidentiality, software testing, predictive analysis, machine learning, and software improvement. However accurate estimation is demonstrably expensive in many contexts, including software. Statisticians have consequently developed biased estimators that aim to accurately estimate entropy on the basis of a sample. In this paper we apply 18 widely employed entropy estimators to Shannon measures useful to the software engineer: entropy, mutual information and conditional mutual information. Moreover, we investigate how the estimators are affected by two main influential factors: sample size and domain size. Our experiments range over a large set of randomly generated joint probability distributions and varying sample sizes, rather than choosing just one or two well known probability distributions as in previous investigations. Our most important result is identifying that the Chao-Shen and Chao-Wang-Jost estimators stand out for consistently converging more quickly to the ground truth, regardless of domain size and regardless of the measure used. They also tend to outperform the others in terms of accuracy as sample sizes increase. This discovery enables a significant reduction in data collection effort without compromising performance.
- Abstract(参考訳): エントロピー推定は生物学、経済学、物理学、通信工学、その他の分野において重要な役割を果たす。
ソフトウェアエンジニアリング、例えば、ソフトウェアの機密性、ソフトウェアテスト、予測分析、機械学習、ソフトウェア改善でますます使われている。
しかし、ソフトウェアを含む多くの状況において、正確な見積もりは明らかに高価である。
その結果、統計学者はサンプルに基づいてエントロピーを正確に推定することを目的としたバイアス付き推定器を開発した。
本稿では,ソフトウェア技術者にとって有用なシャノン測度,エントロピー,相互情報,条件付き相互情報に対して,広く採用されている18のエントロピー推定器を適用する。
さらに, サンプルサイズとドメインサイズという2つの大きな要因から, 推定値がどのような影響を受けているかを検討した。
我々の実験は、以前の研究のように1つまたは2つのよく知られた確率分布だけを選択するのではなく、ランダムに生成された多数の合同確率分布と様々なサンプルサイズに及んでいる。
我々の最も重要な結果は、Chao-Shen と Chao-Wang-Jost の推定者が、ドメインのサイズにかかわらず、使用した測定値にかかわらず、より早く、基礎的な真実に収束していることを明らかにすることです。
また、サンプルのサイズが大きくなるにつれて、他のものよりも精度が高い傾向にある。
この発見により、パフォーマンスを損なうことなく、データ収集の労力を大幅に削減できる。
関連論文リスト
- confidence-planner: Easy-to-Use Prediction Confidence Estimation and
Sample Size Planning [3.0969191504482247]
予測信頼区間を推定するための,使い易いpythonパッケージとWebアプリケーションを提案する。
このパッケージは、サンプルのサイズと予測の信頼性を判断し、正当化する8つの異なる手順を提供する。
論文 参考訳(メタデータ) (2023-01-12T14:49:59Z) - ZigZag: Universal Sampling-free Uncertainty Estimation Through Two-Step Inference [54.17205151960878]
汎用的でデプロイが容易なサンプリング不要のアプローチを導入します。
我々は,最先端手法と同等の信頼性のある不確実性推定を,計算コストを著しく低減した形で生成する。
論文 参考訳(メタデータ) (2022-11-21T13:23:09Z) - Estimating the Entropy of Linguistic Distributions [75.20045001387685]
言語分布に対する異なるエントロピー推定器の実証的有効性について検討した。
報告された効果の大きさは、低エントロピー推定器への過度な信頼のために過大評価されていることを示す。
論文 参考訳(メタデータ) (2022-04-04T13:36:46Z) - On Variance Estimation of Random Forests [0.0]
本稿では,不完全U-統計量に基づく不偏分散推定器を開発する。
我々は,計算コストを増大させることなく,より低いバイアスとより正確な信頼区間のカバレッジを評価できることを示した。
論文 参考訳(メタデータ) (2022-02-18T03:35:47Z) - Expected Validation Performance and Estimation of a Random Variable's
Maximum [48.83713377993604]
予測された検証性能に対する3つの統計的推定器を解析する。
偏りのない推定器は最も分散度が高く、最小分散度を持つ推定器は最大のバイアスを持つ。
2つの偏りのある推定器は、最も少ない誤った結論につながる。
論文 参考訳(メタデータ) (2021-10-01T18:48:47Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - Neural Joint Entropy Estimation [12.77733789371855]
離散確率変数のエントロピーの推定は情報理論と関連する分野における根本的な問題である。
本稿では,McAllester と Statos (2020) の業績を拡張した,この問題に対する実用的な解決策を提案する。
提案手法は,深層ニューラルネットワーク(DNN)におけるクロスエントロピー推定の一般化能力を用いて,エントロピー推定精度の向上を図る。
論文 参考訳(メタデータ) (2020-12-21T09:23:39Z) - MASSIVE: Tractable and Robust Bayesian Learning of Many-Dimensional
Instrumental Variable Models [8.271859911016719]
モデル不確実性を考慮した汎用的かつ効率的な因果推論アルゴリズムを提案する。
いくつかの候補が(近い)有効である限り、どの候補が先験的かを知ることなく、それらの集団が目標との相互作用に十分な制限を課し、信頼できる因果効果の推定を得る。
論文 参考訳(メタデータ) (2020-12-18T10:06:55Z) - A Robust Test for Elliptical Symmetry [2.030567625639093]
楕円性GoFテストは通常分析が困難であり、統計力は特に強くないことが多い。
デ・フィネッティが導入した交換可能な確率変数計算に基づく新しいフレームワークを開発する。
論文 参考訳(メタデータ) (2020-06-05T08:51:16Z) - Showing Your Work Doesn't Always Work [73.63200097493576]
『Show Your Work: Improved Reporting of Experimental Results』では、最高の学習モデルの有効性を報告している。
解析的にそれらの推定器は偏りがあり、エラーを起こしやすい仮定を用いていることを示す。
我々は、偏見のない代替案を導き、統計的シミュレーションから経験的な証拠で主張を裏付ける。
論文 参考訳(メタデータ) (2020-04-28T17:59:01Z) - Machine learning for causal inference: on the use of cross-fit
estimators [77.34726150561087]
より優れた統計特性を得るために、二重ローバストなクロスフィット推定器が提案されている。
平均因果効果(ACE)に対する複数の推定器の性能評価のためのシミュレーション研究を行った。
機械学習で使用する場合、二重確率のクロスフィット推定器は、バイアス、分散、信頼区間のカバレッジで他のすべての推定器よりも大幅に優れていた。
論文 参考訳(メタデータ) (2020-04-21T23:09:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。