論文の概要: Which distribution were you sampled from? Towards a more tangible conception of data
- arxiv url: http://arxiv.org/abs/2407.17395v3
- Date: Thu, 12 Sep 2024 09:22:25 GMT
- ステータス: 処理完了
- システム内更新日: 2024-09-13 21:20:46.237022
- Title: Which distribution were you sampled from? Towards a more tangible conception of data
- Title(参考訳): どのような分布をサンプリングしたのか?データのより具体的な概念を目指して
- Authors: Benedikt Höltgen, Robert C. Williamson,
- Abstract要約: 機械学習の標準フレームワークは必ずしも良いモデルではない、と私たちは主張する。
抽象分布よりも有限集団に着目した代替フレームワークを提案する。
- 参考スコア(独自算出の注目度): 7.09435109588801
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Machine Learning research, as most of Statistics, heavily relies on the concept of a data-generating probability distribution. The standard presumption is that since data points are `sampled from' such a distribution, one can learn from observed data about this distribution and, thus, predict future data points which, it is presumed, are also drawn from it. Drawing on scholarship across disciplines, we here argue that this framework is not always a good model. Not only do such true probability distributions not exist; the framework can also be misleading and obscure both the choices made and the goals pursued in machine learning practice. We suggest an alternative framework that focuses on finite populations rather than abstract distributions; while classical learning theory can be left almost unchanged, it opens new opportunities, especially to model sampling. We compile these considerations into five reasons for modelling machine learning -- in some settings -- with finite populations rather than generative distributions, both to be more faithful to practice and to provide novel theoretical insights.
- Abstract(参考訳): 機械学習の研究は統計学のほとんどと同様に、データ生成確率分布の概念に大きく依存している。
標準的な推定では、データポイントはそのような分布から'サンプリング'されているため、この分布に関する観測データから学習することができ、推定される将来のデータポイントもそこから引き出される。
専門分野にまたがる奨学金に基づいて、我々はこのフレームワークが必ずしも良いモデルであるとは限らないと論じている。
このような真の確率分布は存在しないだけでなく、フレームワークは選択と機械学習の実践で追求された目標の両方を誤解させ、曖昧にすることができる。
抽象分布よりも有限集団に着目した代替フレームワークを提案するが、古典的学習理論はほとんど変化しないが、特にモデルサンプリングにおいて新たな機会が開かれる。
我々はこれらの考察を、生成的分布よりも有限集団で機械学習をモデル化する5つの理由にまとめ、実践に忠実であり、新しい理論的洞察を提供する。
関連論文リスト
- Universality in Transfer Learning for Linear Models [18.427215139020625]
回帰モデルと二分分類モデルの両方を対象とした線形モデルにおける伝達学習の問題点について検討する。
我々は、厳密かつ厳密な分析を行い、事前訓練されたモデルと微調整されたモデルに対する一般化誤差(回帰)と分類誤差(二分分類)を関連付ける。
論文 参考訳(メタデータ) (2024-10-03T03:09:09Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Ask Your Distribution Shift if Pre-Training is Right for You [74.18516460467019]
実際に、事前訓練されたモデルの微調整は、いくつかのケースではロバスト性を大幅に改善するが、他のケースではまったく改善しない。
分散シフト中のモデルの2つの障害モード – トレーニングデータの補間不足とバイアス – に注目する。
我々の研究は、親指の規則として、事前学習は、粗悪な外挿を緩和するがデータセットのバイアスを緩和する助けとなることを示唆している。
論文 参考訳(メタデータ) (2024-02-29T23:46:28Z) - SimPro: A Simple Probabilistic Framework Towards Realistic Long-Tailed Semi-Supervised Learning [49.94607673097326]
ラベルなしデータの分散に関する前提を前提としない、高度に適応可能なフレームワークをSimProとして提案する。
我々のフレームワークは確率モデルに基づいており、期待最大化アルゴリズムを革新的に洗練する。
本手法は,様々なベンチマークやデータ分散シナリオにまたがる一貫した最先端性能を示す。
論文 参考訳(メタデータ) (2024-02-21T03:39:04Z) - Credal Learning Theory [4.64390130376307]
我々は,データ生成分布の変動をモデル化するために,凸集合の確率を用いて,不規則な学習理論の基礎を定めている。
境界は有限仮説空間や古典的な結果を直接一般化する無限モデル空間の場合に導かれる。
論文 参考訳(メタデータ) (2024-02-01T19:25:58Z) - Dr. FERMI: A Stochastic Distributionally Robust Fair Empirical Risk
Minimization Framework [12.734559823650887]
分散シフトが存在する場合、公正な機械学習モデルはテストデータに対して不公平に振る舞うことがある。
既存のアルゴリズムはデータへの完全なアクセスを必要とし、小さなバッチを使用する場合には使用できない。
本稿では,因果グラフの知識を必要としない収束保証付き分布安定度フレームワークを提案する。
論文 参考訳(メタデータ) (2023-09-20T23:25:28Z) - Sampling from Arbitrary Functions via PSD Models [55.41644538483948]
まず確率分布をモデル化し,そのモデルからサンプリングする。
これらのモデルでは, 少数の評価値を用いて, 高精度に多数の密度を近似することが可能であることが示され, それらのモデルから効果的にサンプルする簡単なアルゴリズムが提示される。
論文 参考訳(メタデータ) (2021-10-20T12:25:22Z) - Out of Distribution Generalization in Machine Learning [0.0]
モデルがトレーニングされたデータとわずかに異なるデータでテストされる日常の状況では、MLアルゴリズムは壮大に失敗する可能性があります。
この研究は、この問題を形式的に定義し、データで妥当な仮定セットを定義しようとしています。
次に,分布問題,それらの仮定のある種のクラスに注目し,これらの仮定から従う単純なアルゴリズムを導入する。
論文 参考訳(メタデータ) (2021-03-03T20:35:19Z) - A Note on High-Probability versus In-Expectation Guarantees of
Generalization Bounds in Machine Learning [95.48744259567837]
統計的機械学習理論は、しばしば機械学習モデルの一般化を保証するよう試みる。
機械学習モデルのパフォーマンスに関する声明は、サンプリングプロセスを考慮する必要がある。
1つのステートメントを別のステートメントに変換する方法を示します。
論文 参考訳(メタデータ) (2020-10-06T09:41:35Z) - GANs with Conditional Independence Graphs: On Subadditivity of
Probability Divergences [70.30467057209405]
GAN(Generative Adversarial Networks)は、データセットの基盤となる分布を学習するための現代的な手法である。
GANは、基礎となるディストリビューションに関する追加情報がないモデルフリーで設計されている。
本稿では,ベイズネット/MRFの近傍に単純な識別器群を用いたモデルベースGANの設計を提案する。
論文 参考訳(メタデータ) (2020-03-02T04:31:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。