論文の概要: How Much is Unseen Depends Chiefly on Information About the Seen
- arxiv url: http://arxiv.org/abs/2402.05835v1
- Date: Thu, 8 Feb 2024 17:12:49 GMT
- ステータス: 処理完了
- システム内更新日: 2024-02-09 13:49:19.331412
- Title: How Much is Unseen Depends Chiefly on Information About the Seen
- Title(参考訳): 目に見えないものは、主に写真に関する情報に依存している
- Authors: Seongmin Lee and Marcel B\"ohme
- Abstract要約: トレーニングデータに現れないクラスに属する未知の集団におけるデータポイントの割合は、トレーニングデータに同じ回数に現れるクラスの数$f_k$によってほぼ完全に決定される。
サンプルのみを用いて最小平均二乗誤差(MSE)を持つ推定器を探索する遺伝的アルゴリズムを開発した。
- 参考スコア(独自算出の注目度): 2.169081345816618
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: It might seem counter-intuitive at first: We find that, in expectation, the
proportion of data points in an unknown population-that belong to classes that
do not appear in the training data-is almost entirely determined by the number
$f_k$ of classes that do appear in the training data the same number of times.
While in theory we show that the difference of the induced estimator decays
exponentially in the size of the sample, in practice the high variance prevents
us from using it directly for an estimator of the sample coverage. However, our
precise characterization of the dependency between $f_k$'s induces a large
search space of different representations of the expected value, which can be
deterministically instantiated as estimators. Hence, we turn to optimization
and develop a genetic algorithm that, given only the sample, searches for an
estimator with minimal mean-squared error (MSE). In our experiments, our
genetic algorithm discovers estimators that have a substantially smaller MSE
than the state-of-the-art Good-Turing estimator. This holds for over 96% of
runs when there are at least as many samples as classes. Our estimators' MSE is
roughly 80% of the Good-Turing estimator's.
- Abstract(参考訳): 予想では、トレーニングデータに現れないクラスに属する未知の集団のデータポイントの割合は、トレーニングデータに同じ回数で現れるクラスの数$f_k$でほぼ完全に決定されている。
理論上は, 誘導推定器の差が試料の大きさで指数関数的に減少することを示すが, 実際には, 高分散は試料被覆の推定器を直接使用することを妨げている。
しかし、$f_k$ 間の依存性の正確な特徴付けは、期待値の異なる表現を持つ大きな探索空間を誘導し、決定論的に推定子としてインスタンス化することができる。
したがって, サンプルのみを与えられた場合, 最小平均二乗誤差 (mse) を持つ推定器を探索する遺伝的アルゴリズムを最適化し開発する。
我々の遺伝的アルゴリズムは、現在最先端のグッドチューリング推定器よりもかなり小さいMSEを持つ推定器を発見する。
クラスとして少なくとも多くのサンプルが存在する場合、これは96%以上実行されます。
私たちの推定器のMSEはグッドチューリング推定器の約80%です。
関連論文リスト
- Collaborative Learning with Different Labeling Functions [7.228285747845779]
我々は、$n$のデータ分布ごとに正確な分類器を学習することを目的とした、協調型PAC学習の亜種について研究する。
データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。
論文 参考訳(メタデータ) (2024-02-16T04:32:22Z) - Nearest Neighbour Score Estimators for Diffusion Generative Models [16.189734871742743]
トレーニングセットから複数のサンプルを抽出し,推定値の分散を劇的に低減する新しい近傍スコア関数推定器を提案する。
拡散モデルでは,確率フローODE統合のための学習ネットワークを推定器で置き換えることができ,将来的な研究の新たな道が開かれる。
論文 参考訳(メタデータ) (2024-02-12T19:27:30Z) - Detecting Adversarial Data by Probing Multiple Perturbations Using
Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。
本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。
EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文 参考訳(メタデータ) (2023-05-25T13:14:58Z) - Robust Sparse Mean Estimation via Incremental Learning [15.536082641659423]
そこで本研究では, 部分的に破損したサンプルの集合から, k$-sparse平均を推定することを目的とする, 頑健な平均推定問題について検討する。
両課題を適度な条件下で克服する簡易平均推定器を提案する。
私たちのメソッドは、スパーシティレベル$k$に関する事前の知識を必要としない。
論文 参考訳(メタデータ) (2023-05-24T16:02:28Z) - Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。
本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。
BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文 参考訳(メタデータ) (2021-10-24T10:23:51Z) - SLOE: A Faster Method for Statistical Inference in High-Dimensional
Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。
私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文 参考訳(メタデータ) (2021-03-23T17:48:56Z) - DEMI: Discriminative Estimator of Mutual Information [5.248805627195347]
連続確率変数間の相互情報を推定することは、高次元データにとってしばしば難解で困難である。
近年の進歩は、相互情報の変動的下界を最適化するためにニューラルネットワークを活用している。
提案手法は,データサンプルペアが結合分布から引き出される確率を提供する分類器の訓練に基づく。
論文 参考訳(メタデータ) (2020-10-05T04:19:27Z) - $\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a
Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。
本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文 参考訳(メタデータ) (2020-06-13T06:09:27Z) - Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。
本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文 参考訳(メタデータ) (2020-05-22T22:30:52Z) - Nonparametric Estimation of the Fisher Information and Its Applications [82.00720226775964]
本稿では,大きさn$のランダムサンプルからフィッシャー情報の位置推定の問題について考察する。
Bhattacharyaにより提案された推定器を再検討し、収束率の向上を導出する。
クリッピング推定器と呼ばれる新しい推定器を提案する。
論文 参考訳(メタデータ) (2020-05-07T17:21:56Z) - Quantifying With Only Positive Training Data [0.5735035463793008]
定量化 (quantification) は、ラベルなしサンプルにおいて各クラスに属するデータポイント数をカウントする方法を研究する研究分野である。
この記事では、ポジティブとアンラベルラーニング(PUL)とワンクラスの量子化(OCQ)のギャップを埋める。
提案手法であるパッシブ・アグレッシブ・スレッショルド(PAT)とPUL法を比較し,PATが一般に最も高速かつ高精度なアルゴリズムであることを示す。
論文 参考訳(メタデータ) (2020-04-22T01:18:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。