論文の概要: How Much is Unseen Depends Chiefly on Information About the Seen
- arxiv url: http://arxiv.org/abs/2402.05835v2
- Date: Sun, 09 Mar 2025 20:56:37 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-11 15:44:45.997999
- Title: How Much is Unseen Depends Chiefly on Information About the Seen
- Title(参考訳): 目に見えないものは、主に写真に関する情報に依存している
- Authors: Seongmin Lee, Marcel Böhme,
- Abstract要約: 期待して、欠落した質量は、トレーニングデータに現れるクラスの数$f_k$によって完全に決定される。
これは、サンプルの観点から予想される質量の正確な評価であるが、誘導推定器は不規則に高い分散に悩まされる。
- 参考スコア(独自算出の注目度): 14.365105289625399
- License:
- Abstract: The missing mass refers to the proportion of data points in an unknown population of classifier inputs that belong to classes not present in the classifier's training data, which is assumed to be a random sample from that unknown population. We find that in expectation the missing mass is entirely determined by the number $f_k$ of classes that do appear in the training data the same number of times and an exponentially decaying error. While this is the first precise characterization of the expected missing mass in terms of the sample, the induced estimator suffers from an impractically high variance. However, our theory suggests a large search space of nearly unbiased estimators that can be searched effectively and efficiently. Hence, we cast distribution-free estimation as an optimization problem to find a distribution-specific estimator with a minimized mean-squared error (MSE), given only the sample. In our experiments, our search algorithm discovers estimators that have a substantially smaller MSE than the state-of-the-art Good-Turing estimator. This holds for over 93% of runs when there are at least as many samples as classes. Our estimators' MSE is roughly 80% of the Good-Turing estimator's.
- Abstract(参考訳): 欠落した質量は、その未知の集団からランダムなサンプルと推定される分類器の訓練データに存在しないクラスに属する分類器の入力の未知の集団におけるデータポイントの割合を指す。
期待して、不足質量は、トレーニングデータに同じ回数で現れるクラスの数$f_k$と指数関数的に崩壊する誤差によって完全に決定される。
これは、サンプルの観点から予想される質量の正確な評価であるが、誘導推定器は不規則に高い分散に悩まされる。
しかし, この理論は, 効率的かつ効率的に探索できる, ほぼ偏りのない推定器の大規模な探索空間を示唆している。
そこで我々は, 最小平均二乗誤差 (MSE) を持つ分布固有推定器を求めるために, 分布自由推定を最適化問題として用いた。
本実験では, 最先端のグッドチューリング推定器に比べて, MSE がかなり小さい推定器を探索した。
これは、クラスとして少なくとも多くのサンプルが存在する場合、93%以上の実行を保持します。
私たちの推定器のMSEは、グッドチューリング推定器の約80%です。
関連論文リスト
- Collaborative Learning with Different Labeling Functions [7.228285747845779]
我々は、$n$のデータ分布ごとに正確な分類器を学習することを目的とした、協調型PAC学習の亜種について研究する。
データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。
論文 参考訳(メタデータ) (2024-02-16T04:32:22Z) - Nearest Neighbour Score Estimators for Diffusion Generative Models [16.189734871742743]
トレーニングセットから複数のサンプルを抽出し,推定値の分散を劇的に低減する新しい近傍スコア関数推定器を提案する。
拡散モデルでは,確率フローODE統合のための学習ネットワークを推定器で置き換えることができ,将来的な研究の新たな道が開かれる。
論文 参考訳(メタデータ) (2024-02-12T19:27:30Z) - Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - Robust Sparse Mean Estimation via Incremental Learning [15.536082641659423]
そこで本研究では, 部分的に破損したサンプルの集合から, k$-sparse平均を推定することを目的とする, 頑健な平均推定問題について検討する。
両課題を適度な条件下で克服する簡易平均推定器を提案する。
私たちのメソッドは、スパーシティレベル$k$に関する事前の知識を必要としない。
論文 参考訳(メタデータ) (2023-05-24T16:02:28Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - DEMI: Discriminative Estimator of Mutual Information [5.248805627195347]
連続確率変数間の相互情報を推定することは、高次元データにとってしばしば難解で困難である。
近年の進歩は、相互情報の変動的下界を最適化するためにニューラルネットワークを活用している。
提案手法は,データサンプルペアが結合分布から引き出される確率を提供する分類器の訓練に基づく。
論文 参考訳(メタデータ) (2020-10-05T04:19:27Z) - $\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a
Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。
本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文 参考訳(メタデータ) (2020-06-13T06:09:27Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - Nonparametric Estimation of the Fisher Information and Its Applications [82.00720226775964]
本稿では,大きさn$のランダムサンプルからフィッシャー情報の位置推定の問題について考察する。
Bhattacharyaにより提案された推定器を再検討し、収束率の向上を導出する。
クリッピング推定器と呼ばれる新しい推定器を提案する。
論文 参考訳(メタデータ) (2020-05-07T17:21:56Z) - Quantifying With Only Positive Training Data [0.5735035463793008]
定量化 (quantification) は、ラベルなしサンプルにおいて各クラスに属するデータポイント数をカウントする方法を研究する研究分野である。
この記事では、ポジティブとアンラベルラーニング(PUL)とワンクラスの量子化(OCQ)のギャップを埋める。
提案手法であるパッシブ・アグレッシブ・スレッショルド(PAT)とPUL法を比較し,PATが一般に最も高速かつ高精度なアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-04-22T01:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。