論文の概要: Evaluating Bayes Error Estimators on Read-World Datasets with FeeBee
- arxiv url: http://arxiv.org/abs/2108.13034v1
- Date: Mon, 30 Aug 2021 07:43:36 GMT
- ステータス: 処理完了
- システム内更新日: 2021-08-31 14:30:52.913297
- Title: Evaluating Bayes Error Estimators on Read-World Datasets with FeeBee
- Title(参考訳): FeeBeeを用いたリードワールドデータセットにおけるベイズ誤差推定器の評価
- Authors: Cedric Renggli, Luka Rimanic, Nora Hollenstein, Ce Zhang
- Abstract要約: FeeBeeは、最新の現実世界のデータセット上のBER推定器を未知の確率分布で分析し比較するための、原則化されたフレームワークである。
我々は、コンピュータビジョンとNLPドメインの6つの一般的なデータセット上に、7つのマルチクラスBER推定器を実装し、分析する。
- 参考スコア(独自算出の注目度): 10.277673884235728
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The Bayes error rate (BER) is a fundamental concept in machine learning that
quantifies the best possible accuracy any classifier can achieve on a fixed
probability distribution. Despite years of research on building estimators of
lower and upper bounds for the BER, these were usually compared only on
synthetic datasets with known probability distributions, leaving two key
questions unanswered: (1) How well do they perform on real-world datasets?, and
(2) How practical are they? Answering these is not trivial. Apart from the
obvious challenge of an unknown BER for real-world datasets, there are two main
aspects any BER estimator needs to overcome in order to be applicable in
real-world settings: (1) the computational and sample complexity, and (2) the
sensitivity and selection of hyper-parameters. In this work, we propose FeeBee,
the first principled framework for analyzing and comparing BER estimators on
any modern real-world dataset with unknown probability distribution. We achieve
this by injecting a controlled amount of label noise and performing multiple
evaluations on a series of different noise levels, supported by a theoretical
result which allows drawing conclusions about the evolution of the BER. By
implementing and analyzing 7 multi-class BER estimators on 6 commonly used
datasets of the computer vision and NLP domains, FeeBee allows a thorough study
of these estimators, clearly identifying strengths and weaknesses of each,
whilst being easily deployable on any future BER estimator.
- Abstract(参考訳): bayes error rate (ber) は機械学習の基本的な概念であり、任意の分類器が固定確率分布で達成できる最善の精度を定量化する。
BERの下限と上限の予測器の構築に関する長年の研究にもかかわらず、これらは通常、既知の確率分布を持つ合成データセットでのみ比較され、2つの重要な疑問が未解決のまま残されている。
これらの答えは自明ではない。
実世界のデータセットに対する未知のBERの明らかな挑戦とは別に、BER推定器が現実の環境に適用するために克服する必要がある主な側面が2つある:(1)計算とサンプルの複雑さ、(2)超パラメータの感度と選択。
本研究では,未知確率分布を持つ現代実世界のデータセットにおけるber推定器の解析と比較を行う最初の原則付きフレームワークである feebee を提案する。
ラベルノイズの制御量を注入し,様々なノイズレベルについて複数の評価を行い,berの進化に関する結論を導出する理論的結果により,これを実現する。
コンピュータビジョンとNLPドメインの6つの一般的なデータセット上に7つのマルチクラスBER推定器を実装し、分析することにより、FeeBeeはこれらの推定器を徹底的に研究し、それぞれの長所と短所を明確に識別し、将来のBER推定器に容易にデプロイできる。
関連論文リスト
- Estimating Uncertainty with Implicit Quantile Network [0.0]
不確かさの定量化は多くの性能クリティカルなアプリケーションにおいて重要な部分である。
本稿では,アンサンブル学習やベイズニューラルネットワークなど,既存のアプローチに対する簡単な代替手段を提供する。
論文 参考訳(メタデータ) (2024-08-26T13:33:14Z) - Positive and Unlabeled Data: Model, Estimation, Inference, and Classification [10.44075062541605]
本研究では、二重指数傾斜モデル(DETM)による正・ラベルなし(PU)データへの新たなアプローチを提案する。
従来の手法は、完全にランダム(SCAR)PUデータでのみ適用されるため、しばしば不足する。
我々のDEMの二重構造は、ランダムPUデータで選択されたより複雑で未探索な構造を効果的に許容する。
論文 参考訳(メタデータ) (2024-07-13T00:57:04Z) - BIRD: A Trustworthy Bayesian Inference Framework for Large Language Models [52.46248487458641]
予測モデルは、現実世界のタスクで不完全な情報を扱う必要があることが多い。
現在の大規模言語モデル(LLM)は、そのような正確な推定には不十分である。
本稿では,新しい確率的推論フレームワークBIRDを提案する。
論文 参考訳(メタデータ) (2024-04-18T20:17:23Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Minimally Supervised Learning using Topological Projections in
Self-Organizing Maps [55.31182147885694]
自己組織化マップ(SOM)におけるトポロジカルプロジェクションに基づく半教師付き学習手法を提案する。
提案手法は,まずラベル付きデータ上でSOMを訓練し,最小限のラベル付きデータポイントをキーベストマッチングユニット(BMU)に割り当てる。
提案した最小教師付きモデルが従来の回帰手法を大幅に上回ることを示す。
論文 参考訳(メタデータ) (2024-01-12T22:51:48Z) - Uncertain Bayesian Networks: Learning from Incomplete Data [30.09565247029203]
歴史的データが限られている場合、ベイズネットワークのノードに関連する条件確率は不確実である。
2次推定法は、確率を推定し、不確実性を定量化するためのフレームワークを提供する。
提案手法は,様々な問合せに対する信頼境界の強さを所望し,経験的に導出することで,パラメータの後部を学習するための様々な手法を評価する。
論文 参考訳(メタデータ) (2022-08-08T15:46:44Z) - DRFLM: Distributionally Robust Federated Learning with Inter-client
Noise via Local Mixup [58.894901088797376]
連合学習は、生データをリークすることなく、複数の組織のデータを使用してグローバルモデルをトレーニングするための有望なアプローチとして登場した。
上記の2つの課題を同時に解決するための一般的な枠組みを提案する。
我々は、ロバストネス解析、収束解析、一般化能力を含む包括的理論的解析を提供する。
論文 参考訳(メタデータ) (2022-04-16T08:08:29Z) - Evaluating State-of-the-Art Classification Models Against Bayes
Optimality [106.50867011164584]
正規化フローを用いて学習した生成モデルのベイズ誤差を正確に計算できることを示す。
われわれの手法を用いて、最先端の分類モデルについて徹底的な調査を行う。
論文 参考訳(メタデータ) (2021-06-07T06:21:20Z) - Distributionally Robust Local Non-parametric Conditional Estimation [22.423052432220235]
非パラメトリックな局所推定を生成する分布安定な新しい推定器を提案する。
一般には難解であるにもかかわらず、局所推定器は凸最適化によって効率的に見つけることができることを示す。
合成およびMNISTデータセットを用いた実験は、この新しいクラスの推定器の競合性能を示している。
論文 参考訳(メタデータ) (2020-10-12T00:11:17Z) - Diversity inducing Information Bottleneck in Model Ensembles [73.80615604822435]
本稿では,予測の多様性を奨励することで,ニューラルネットワークの効果的なアンサンブルを生成する問題をターゲットにする。
そこで本研究では,潜伏変数の学習における逆損失の多様性を明示的に最適化し,マルチモーダルデータのモデリングに必要な出力予測の多様性を得る。
最も競争力のあるベースラインと比較して、データ分布の変化の下で、分類精度が大幅に向上した。
論文 参考訳(メタデータ) (2020-03-10T03:10:41Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。