Fugu-MT 論文翻訳(概要): How Much is Unseen Depends Chiefly on Information About the Seen

論文の概要: How Much is Unseen Depends Chiefly on Information About the Seen

arxiv url: http://arxiv.org/abs/2402.05835v1
Date: Thu, 8 Feb 2024 17:12:49 GMT
ステータス: 翻訳完了
システム内更新日: 2024-02-09 13:49:19.331412
Title: How Much is Unseen Depends Chiefly on Information About the Seen
Title（参考訳）: 目に見えないものは、主に写真に関する情報に依存している
Authors: Seongmin Lee and Marcel B\"ohme
Abstract要約: トレーニングデータに現れないクラスに属する未知の集団におけるデータポイントの割合は、トレーニングデータに同じ回数に現れるクラスの数$f_k$によってほぼ完全に決定される。サンプルのみを用いて最小平均二乗誤差(MSE)を持つ推定器を探索する遺伝的アルゴリズムを開発した。
参考スコア（独自算出の注目度）: 2.169081345816618
License: http://creativecommons.org/licenses/by/4.0/
Abstract: It might seem counter-intuitive at first: We find that, in expectation, the proportion of data points in an unknown population-that belong to classes that do not appear in the training data-is almost entirely determined by the number $f_k$ of classes that do appear in the training data the same number of times. While in theory we show that the difference of the induced estimator decays exponentially in the size of the sample, in practice the high variance prevents us from using it directly for an estimator of the sample coverage. However, our precise characterization of the dependency between $f_k$'s induces a large search space of different representations of the expected value, which can be deterministically instantiated as estimators. Hence, we turn to optimization and develop a genetic algorithm that, given only the sample, searches for an estimator with minimal mean-squared error (MSE). In our experiments, our genetic algorithm discovers estimators that have a substantially smaller MSE than the state-of-the-art Good-Turing estimator. This holds for over 96% of runs when there are at least as many samples as classes. Our estimators' MSE is roughly 80% of the Good-Turing estimator's.
Abstract（参考訳）: 予想では、トレーニングデータに現れないクラスに属する未知の集団のデータポイントの割合は、トレーニングデータに同じ回数で現れるクラスの数$f_k$でほぼ完全に決定されている。理論上は, 誘導推定器の差が試料の大きさで指数関数的に減少することを示すが, 実際には, 高分散は試料被覆の推定器を直接使用することを妨げている。しかし、$f_k$ 間の依存性の正確な特徴付けは、期待値の異なる表現を持つ大きな探索空間を誘導し、決定論的に推定子としてインスタンス化することができる。したがって, サンプルのみを与えられた場合, 最小平均二乗誤差 (mse) を持つ推定器を探索する遺伝的アルゴリズムを最適化し開発する。我々の遺伝的アルゴリズムは、現在最先端のグッドチューリング推定器よりもかなり小さいMSEを持つ推定器を発見する。クラスとして少なくとも多くのサンプルが存在する場合、これは96%以上実行されます。私たちの推定器のMSEはグッドチューリング推定器の約80%です。

関連論文リスト

Model Evaluation in the Dark: Robust Classifier Metrics with Missing Labels [2.384873896423002]
本稿では,精度,リコール,ROC-AUCなどの指標を用いて分類器の評価を行うための多重計算手法を提案する。予測分布の位置と形状が一般的に正しいことを実証的に示す。
論文参考訳（メタデータ） (2025-04-25T14:31:42Z)
Estimating Uncertainty with Implicit Quantile Network [0.0]
不確かさの定量化は多くの性能クリティカルなアプリケーションにおいて重要な部分である。本稿では,アンサンブル学習やベイズニューラルネットワークなど,既存のアプローチに対する簡単な代替手段を提供する。
論文参考訳（メタデータ） (2024-08-26T13:33:14Z)
On Efficient and Statistical Quality Estimation for Data Annotation [11.216738303463751]
アノテーション付きデータセットは、教師付き機械学習モデルをトレーニング、評価、比較、生産化するための重要な要素である。品質評価は、専門家が手動でインスタンスを正しくも正しくもラベル付けすることで行われることが多い。しかし、小さなサンプルサイズに基づく推定は、誤り率の不正確な値につながる可能性がある。また, 受入サンプリングは, 同じ統計的保証を提供しながら, 必要なサンプルサイズを最大50%削減できることを示した。
論文参考訳（メタデータ） (2024-05-20T09:57:29Z)
Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文参考訳（メタデータ） (2024-03-11T13:44:49Z)
Collaborative Learning with Different Labeling Functions [7.228285747845779]
我々は、$n$のデータ分布ごとに正確な分類器を学習することを目的とした、協調型PAC学習の亜種について研究する。データ分布がより弱い実現可能性の仮定を満たす場合、サンプル効率の学習は依然として可能であることを示す。
論文参考訳（メタデータ） (2024-02-16T04:32:22Z)
Nearest Neighbour Score Estimators for Diffusion Generative Models [16.189734871742743]
トレーニングセットから複数のサンプルを抽出し,推定値の分散を劇的に低減する新しい近傍スコア関数推定器を提案する。拡散モデルでは,確率フローODE統合のための学習ネットワークを推定器で置き換えることができ,将来的な研究の新たな道が開かれる。
論文参考訳（メタデータ） (2024-02-12T19:27:30Z)
Detecting Adversarial Data by Probing Multiple Perturbations Using Expected Perturbation Score [62.54911162109439]
逆方向検出は、自然分布と逆方向分布の差に基づいて、与えられたサンプルが逆方向であるかどうかを判定することを目的としている。本研究では,様々な摂動後の標本の予測スコアであるEPS(pre expected perturbation score)を提案する。 EPSに基づく最大平均誤差(MMD)を,試験試料と自然試料との差を測定する指標として開発する。
論文参考訳（メタデータ） (2023-05-25T13:14:58Z)
Robust Sparse Mean Estimation via Incremental Learning [15.536082641659423]
そこで本研究では, 部分的に破損したサンプルの集合から, k$-sparse平均を推定することを目的とする, 頑健な平均推定問題について検討する。両課題を適度な条件下で克服する簡易平均推定器を提案する。私たちのメソッドは、スパーシティレベル$k$に関する事前の知識を必要としない。
論文参考訳（メタデータ） (2023-05-24T16:02:28Z)
A Statistical Model for Predicting Generalization in Few-Shot Classification [6.158812834002346]
一般化誤差を予測するために,特徴分布のガウスモデルを導入する。提案手法は, 相互検証戦略の離脱など, 代替案よりも優れていることを示す。
論文参考訳（メタデータ） (2022-12-13T10:21:15Z)
The Optimal Noise in Noise-Contrastive Learning Is Not What You Think [80.07065346699005]
この仮定から逸脱すると、実際により良い統計的推定結果が得られることが示される。特に、最適な雑音分布は、データと異なり、また、別の家族からさえも異なる。
論文参考訳（メタデータ） (2022-03-02T13:59:20Z)
Learning to Estimate Without Bias [57.82628598276623]
ガウスの定理は、重み付き最小二乗推定器は線形モデルにおける線形最小分散アンバイアスド推定(MVUE)であると述べている。本稿では、バイアス制約のあるディープラーニングを用いて、この結果を非線形設定に拡張する第一歩を踏み出す。 BCEの第二の動機は、同じ未知の複数の推定値が平均化されてパフォーマンスが向上するアプリケーションにおいてである。
論文参考訳（メタデータ） (2021-10-24T10:23:51Z)
Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文参考訳（メタデータ） (2021-10-20T12:25:22Z)
Unrolling Particles: Unsupervised Learning of Sampling Distributions [102.72972137287728]
粒子フィルタリングは複素系の優れた非線形推定を計算するために用いられる。粒子フィルタは様々なシナリオにおいて良好な推定値が得られることを示す。
論文参考訳（メタデータ） (2021-10-06T16:58:34Z)
SLOE: A Faster Method for Statistical Inference in High-Dimensional Logistic Regression [68.66245730450915]
実用データセットに対する予測の偏見を回避し、頻繁な不確実性を推定する改善された手法を開発している。私たちの主な貢献は、推定と推論の計算時間をマグニチュードの順序で短縮する収束保証付き信号強度の推定器SLOEです。
論文参考訳（メタデータ） (2021-03-23T17:48:56Z)
DEMI: Discriminative Estimator of Mutual Information [5.248805627195347]
連続確率変数間の相互情報を推定することは、高次元データにとってしばしば難解で困難である。近年の進歩は、相互情報の変動的下界を最適化するためにニューラルネットワークを活用している。提案手法は,データサンプルペアが結合分布から引き出される確率を提供する分類器の訓練に基づく。
論文参考訳（メタデータ） (2020-10-05T04:19:27Z)
$\gamma$-ABC: Outlier-Robust Approximate Bayesian Computation Based on a Robust Divergence Estimator [95.71091446753414]
最寄りの$gamma$-divergence推定器をデータ差分尺度として用いることを提案する。本手法は既存の不一致対策よりも高いロバスト性を実現する。
論文参考訳（メタデータ） (2020-06-13T06:09:27Z)
Instability, Computational Efficiency and Statistical Accuracy [101.32305022521024]
我々は,人口レベルでのアルゴリズムの決定論的収束率と,$n$サンプルに基づく経験的対象に適用した場合の(不安定性)の間の相互作用に基づいて,統計的精度を得るフレームワークを開発する。本稿では,ガウス混合推定,非線形回帰モデル,情報的非応答モデルなど,いくつかの具体的なモデルに対する一般結果の応用について述べる。
論文参考訳（メタデータ） (2020-05-22T22:30:52Z)
Nonparametric Estimation of the Fisher Information and Its Applications [82.00720226775964]
本稿では,大きさn$のランダムサンプルからフィッシャー情報の位置推定の問題について考察する。 Bhattacharyaにより提案された推定器を再検討し、収束率の向上を導出する。クリッピング推定器と呼ばれる新しい推定器を提案する。
論文参考訳（メタデータ） (2020-05-07T17:21:56Z)
Quantifying With Only Positive Training Data [0.5735035463793008]
定量化 (quantification) は、ラベルなしサンプルにおいて各クラスに属するデータポイント数をカウントする方法を研究する研究分野である。この記事では、ポジティブとアンラベルラーニング(PUL)とワンクラスの量子化(OCQ)のギャップを埋める。提案手法であるパッシブ・アグレッシブ・スレッショルド(PAT)とPUL法を比較し,PATが一般に最も高速かつ高精度なアルゴリズムであることを示す。
論文参考訳（メタデータ） (2020-04-22T01:18:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。