論文の概要: Exploiting non-i.i.d. data towards more robust machine learning
algorithms
- arxiv url: http://arxiv.org/abs/2010.03429v1
- Date: Wed, 7 Oct 2020 14:15:37 GMT
- ステータス: 処理完了
- システム内更新日: 2022-10-09 22:18:11.638094
- Title: Exploiting non-i.i.d. data towards more robust machine learning
algorithms
- Title(参考訳): より堅牢な機械学習アルゴリズムに向けた非i.d.データのエクスプロイト
- Authors: Wim Casteels and Peter Hellinckx
- Abstract要約: 機械学習アルゴリズムは、データからパターンや相関を見つけるのに優れていることがますます示されている。
本稿では,普遍因果関係を優先する正規化方式を提案する。
従来のl-正規化に対して、分配外試験セットでより良い性能が得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In the field of machine learning there is a growing interest towards more
robust and generalizable algorithms. This is for example important to bridge
the gap between the environment in which the training data was collected and
the environment where the algorithm is deployed. Machine learning algorithms
have increasingly been shown to excel in finding patterns and correlations from
data. Determining the consistency of these patterns and for example the
distinction between causal correlations and nonsensical spurious relations has
proven to be much more difficult. In this paper a regularization scheme is
introduced that prefers universal causal correlations. This approach is based
on 1) the robustness of causal correlations and 2) the data not being
independently and identically distribute (i.i.d.). The scheme is demonstrated
with a classification task by clustering the (non-i.i.d.) training set in
subpopulations. A non-i.i.d. regularization term is then introduced that
penalizes weights that are not invariant over these clusters. The resulting
algorithm favours correlations that are universal over the subpopulations and
indeed a better performance is obtained on an out-of-distribution test set with
respect to a more conventional l_2-regularization.
- Abstract(参考訳): 機械学習の分野では、より堅牢で一般化可能なアルゴリズムへの関心が高まっている。
これは例えば、トレーニングデータが収集された環境と、アルゴリズムがデプロイされた環境とのギャップを埋めることにおいて重要である。
機械学習アルゴリズムは、データからパターンや相関を見つけるのに優れています。
これらのパターンの一貫性の決定や、例えば因果相関と非意味的スプリアス関係の区別は、より困難であることが証明されている。
本稿では,普遍因果相関を好む正規化スキームを導入する。
このアプローチは
1)因果相関のロバスト性とその評価
2) 独立して同一に配布されていないデータ(d)
このスキームは(非i.i.d.)トレーニングセットをサブポピュレーションにクラスタリングして分類タスクで示される。
非i.d.正規化項は、これらのクラスター上で不変でない重みをペナライズする。
結果として得られたアルゴリズムは、サブポピュレーションよりも普遍的な相関を好んでおり、より一般的なl_2正規化に関して、分布外テストセットでより優れた性能が得られる。
関連論文リスト
- Generalized Oversampling for Learning from Imbalanced datasets and
Associated Theory [0.0]
教師あり学習では、実際の不均衡なデータセットに直面することが多い。
本稿では,カーネル密度推定に基づくデータ拡張手法であるGOLIATHアルゴリズムを提案する。
我々は,不均衡な回帰状況下でのGOLIATHアルゴリズムの性能を評価する。
論文 参考訳(メタデータ) (2023-08-05T23:08:08Z) - Doubly Inhomogeneous Reinforcement Learning [4.334006170547247]
我々は、ポリシー学習のために、時間とともに個人間で類似したダイナミクスを表示する「最良のデータチャンクを決定するためのオリジナルアルゴリズム」を提案する。
提案手法は汎用的であり,クラスタリングおよび変更点検出アルゴリズムの幅広い範囲で動作する。
論文 参考訳(メタデータ) (2022-11-08T03:41:14Z) - Amortized Inference for Causal Structure Learning [72.84105256353801]
因果構造を学習することは、通常、スコアまたは独立テストを使用して構造を評価することを伴う探索問題を引き起こす。
本研究では,観測・干渉データから因果構造を予測するため,変分推論モデルを訓練する。
我々のモデルは、実質的な分布シフトの下で頑健な一般化能力を示す。
論文 参考訳(メタデータ) (2022-05-25T17:37:08Z) - Faster Deterministic Approximation Algorithms for Correlation Clustering
and Cluster Deletion [5.584060970507507]
相関クラスタリングは、ペアの類似性と相似性スコアに基づいてデータセットをパーティショニングするフレームワークである。
本稿では, 相関クラスタリング問題とエッジラベリング問題との新たな関係性を示す。
我々は,決定論的定数係数近似の保証を有する相関クラスタリングのための新しい近似アルゴリズムを開発し,標準線形プログラミング緩和を回避する。
論文 参考訳(メタデータ) (2021-11-20T22:47:19Z) - Predict then Interpolate: A Simple Algorithm to Learn Stable Classifiers [59.06169363181417]
Predict then Interpolate (PI) は環境全体にわたって安定な相関関係を学習するためのアルゴリズムである。
正しい予測と間違った予測の分布を補間することにより、不安定な相関が消えるオラクル分布を明らかにすることができる。
論文 参考訳(メタデータ) (2021-05-26T15:37:48Z) - Can Active Learning Preemptively Mitigate Fairness Issues? [66.84854430781097]
データセットバイアスは、機械学習における不公平な原因の1つです。
不確実性に基づくALで訓練されたモデルが保護クラスの決定において公平であるかどうかを検討する。
また,勾配反転(GRAD)やBALDなどのアルゴリズム的公正性手法の相互作用についても検討する。
論文 参考訳(メタデータ) (2021-04-14T14:20:22Z) - Clustering-based Unsupervised Generative Relation Extraction [3.342376225738321]
クラスタリングに基づく教師なし生成関係抽出フレームワーク(CURE)を提案する。
我々は「エンコーダ・デコーダ」アーキテクチャを用いて自己教師付き学習を行い、エンコーダが関係情報を抽出できるようにする。
我々のモデルは、ニューヨーク・タイムズ(NYT)と国連並列コーパス(UNPC)の標準データセットにおいて、最先端モデルよりも優れている。
論文 参考訳(メタデータ) (2020-09-26T20:36:40Z) - Decorrelated Clustering with Data Selection Bias [55.91842043124102]
本稿では,データ選択バイアスを伴うクラスタリングのためのデコリレーション正規化K-Meansアルゴリズム(DCKM)を提案する。
DCKMアルゴリズムは,選択バイアスによって生じる予期せぬ特徴相関を除去する必要があることを示す。
論文 参考訳(メタデータ) (2020-06-29T08:55:50Z) - Good Classifiers are Abundant in the Interpolating Regime [64.72044662855612]
補間分類器間のテストエラーの完全な分布を正確に計算する手法を開発した。
テストエラーは、最悪の補間モデルのテストエラーから大きく逸脱する、小さな典型的な$varepsilon*$に集中する傾向にある。
以上の結果から,統計的学習理論における通常の解析手法は,実際に観測された優れた一般化性能を捉えるのに十分な粒度にはならない可能性が示唆された。
論文 参考訳(メタデータ) (2020-06-22T21:12:31Z) - Learning Causal Models Online [103.87959747047158]
予測モデルは、予測を行うためにデータの急激な相関に依存することができる。
強い一般化を達成するための一つの解決策は、モデルに因果構造を組み込むことである。
本稿では,突発的特徴を継続的に検出・除去するオンラインアルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-12T20:49:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。