論文の概要: Out of Distribution Generalization in Machine Learning
- arxiv url: http://arxiv.org/abs/2103.02667v1
- Date: Wed, 3 Mar 2021 20:35:19 GMT
- ステータス: 処理完了
- システム内更新日: 2021-03-07 22:37:16.634047
- Title: Out of Distribution Generalization in Machine Learning
- Title(参考訳): 機械学習における分布一般化の概要
- Authors: Martin Arjovsky
- Abstract要約: モデルがトレーニングされたデータとわずかに異なるデータでテストされる日常の状況では、MLアルゴリズムは壮大に失敗する可能性があります。
この研究は、この問題を形式的に定義し、データで妥当な仮定セットを定義しようとしています。
次に,分布問題,それらの仮定のある種のクラスに注目し,これらの仮定から従う単純なアルゴリズムを導入する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning has achieved tremendous success in a variety of domains in
recent years. However, a lot of these success stories have been in places where
the training and the testing distributions are extremely similar to each other.
In everyday situations when models are tested in slightly different data than
they were trained on, ML algorithms can fail spectacularly. This research
attempts to formally define this problem, what sets of assumptions are
reasonable to make in our data and what kind of guarantees we hope to obtain
from them. Then, we focus on a certain class of out of distribution problems,
their assumptions, and introduce simple algorithms that follow from these
assumptions that are able to provide more reliable generalization. A central
topic in the thesis is the strong link between discovering the causal structure
of the data, finding features that are reliable (when using them to predict)
regardless of their context, and out of distribution generalization.
- Abstract(参考訳): 近年、機械学習は様々な分野で大きな成功を収めています。
しかしながら、これらの成功談の多くは、トレーニングとテストディストリビューションが互いに非常によく似ているところにあります。
モデルがトレーニングされたデータとわずかに異なるデータでテストされる日常の状況では、MLアルゴリズムは壮大に失敗する可能性があります。
この研究は、この問題を形式的に定義し、データに妥当な仮定のセットと、それらから取得したい保証の種類を定義しようとしています。
次に,分散問題,それらの仮定のある種のクラスに注目し,より信頼性の高い一般化を可能にするこれらの仮定に従う単純なアルゴリズムを導入する。
論文の中心的なトピックは、データの因果構造を発見し、その文脈に関係なく(予測するためにそれらを使用したときに)信頼できる特徴を見つけ、分布の一般化から外す、という強いつながりである。
関連論文リスト
- A Survey of Deep Long-Tail Classification Advancements [1.6233132273470656]
実世界の多くのデータ分布は、ほとんど均一ではない。代わりに、様々な種類の歪んだ、長い尾の分布がよく見られる。
これは機械学習にとって興味深い問題であり、ほとんどのアルゴリズムが均一に分散されたデータを想定したり、うまく機能する。
この問題は、大量のトレーニングデータを必要とする現在の最先端のディープラーニングモデルによってさらに悪化している。
論文 参考訳(メタデータ) (2024-04-24T01:59:02Z) - Fairness and Accuracy under Domain Generalization [10.661409428935494]
機械学習アルゴリズムが特定の社会グループに偏っているのではないかという懸念が持ち上がっている。
MLモデルを公平にするための多くのアプローチが提案されているが、トレーニングとデプロイメントにおけるデータ分散が同一であるという仮定に依存しているのが一般的である。
本研究では,テスト時のデータのサンプル化が可能な領域一般化の下でのフェアネスと精度の両面について検討する。
論文 参考訳(メタデータ) (2023-01-30T23:10:17Z) - Generalizing in the Real World with Representation Learning [1.3494312389622642]
機械学習(ML)は、コンピュータにパフォーマンスの最適化としての経験から学習させるという問題を、いくつかの指標に従って定式化する。
これは、事前に規定された振る舞い(例えば、ハードコードされたルール)を要求することと対照的である。
この論文では、深いネットの一般化をよりよく理解し、仮定や問題設定が現実の世界に一般化できないいくつかの方法を特定し、実際にそれらの失敗に対処する方法を提案します。
論文 参考訳(メタデータ) (2022-10-18T15:11:09Z) - Principled Knowledge Extrapolation with GANs [92.62635018136476]
我々は,知識外挿の新たな視点から,対実合成を研究する。
本稿では, 知識外挿問題に対処するために, クローズド形式判別器を用いた対角ゲームが利用可能であることを示す。
提案手法は,多くのシナリオにおいて,エレガントな理論的保証と優れた性能の両方を享受する。
論文 参考訳(メタデータ) (2022-05-21T08:39:42Z) - Self-balanced Learning For Domain Generalization [64.99791119112503]
ドメインの一般化は、モデルが未知の統計を持つ対象のドメインに一般化できるように、マルチドメインのソースデータの予測モデルを学ぶことを目的としている。
既存のアプローチのほとんどは、ソースデータがドメインとクラスの両方の観点からバランスよく調整されているという前提の下で開発されている。
本稿では,多領域ソースデータの分布の違いによるバイアスを軽減するために,損失の重み付けを適応的に学習する自己均衡型領域一般化フレームワークを提案する。
論文 参考訳(メタデータ) (2021-08-31T03:17:54Z) - OoD-Bench: Benchmarking and Understanding Out-of-Distribution
Generalization Datasets and Algorithms [28.37021464780398]
1つの分布シフトにおいて経験的リスク最小化よりも優れた既存のOoDアルゴリズムは、通常、他の分布シフトに制限があることを示す。
新しいベンチマークは、将来のOoD一般化研究で活用できる強力な基盤として機能する可能性がある。
論文 参考訳(メタデータ) (2021-06-07T15:34:36Z) - Improving Uncertainty Calibration via Prior Augmented Data [56.88185136509654]
ニューラルネットワークは、普遍関数近似器として機能することで、複雑なデータ分布から学習することに成功した。
彼らはしばしば予測に自信過剰であり、不正確で誤った確率的予測に繋がる。
本稿では,モデルが不当に過信である特徴空間の領域を探索し,それらの予測のエントロピーをラベルの以前の分布に対して条件的に高める手法を提案する。
論文 参考訳(メタデータ) (2021-02-22T07:02:37Z) - Testing for Typicality with Respect to an Ensemble of Learned
Distributions [5.850572971372637]
適合性のよい問題に対する一サンプルのアプローチは、オンラインテストに多大な計算上の利点をもたらす。
この設定において異常データを正しく否定する能力は、ベース分布のモデルの精度に依存する。
既成の正当性問題に対する既存の手法は、基底分布のモデルが学習されたという事実を考慮に入れない。
本稿では,アンサンブルの任意の構成員に対して,データが異常であれば異常データとなることを考慮し,密度モデルのアンサンブルを訓練することを提案する。
論文 参考訳(メタデータ) (2020-11-11T19:47:46Z) - A Note on High-Probability versus In-Expectation Guarantees of
Generalization Bounds in Machine Learning [95.48744259567837]
統計的機械学習理論は、しばしば機械学習モデルの一般化を保証するよう試みる。
機械学習モデルのパフォーマンスに関する声明は、サンプリングプロセスを考慮する必要がある。
1つのステートメントを別のステートメントに変換する方法を示します。
論文 参考訳(メタデータ) (2020-10-06T09:41:35Z) - Learning while Respecting Privacy and Robustness to Distributional
Uncertainties and Adversarial Data [66.78671826743884]
分散ロバストな最適化フレームワークはパラメトリックモデルのトレーニングのために検討されている。
目的は、逆操作された入力データに対して頑健なトレーニングモデルを提供することである。
提案されたアルゴリズムは、オーバーヘッドがほとんどない堅牢性を提供する。
論文 参考訳(メタデータ) (2020-07-07T18:25:25Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。