論文の概要: Distributionally Robust Data Join
- arxiv url: http://arxiv.org/abs/2202.05797v1
- Date: Fri, 11 Feb 2022 17:46:24 GMT
- ステータス: 処理完了
- システム内更新日: 2022-02-14 15:36:41.734452
- Title: Distributionally Robust Data Join
- Title(参考訳): 分散ロバストなデータ結合
- Authors: Pranjal Awasthi, Christopher Jung, Jamie Morgenstern
- Abstract要約: 本稿では,元の特徴,補助特徴,バイナリラベルに対する全ての確率に対する最大損失を最小限に抑える予測器の構築問題を紹介する。
これは分散ロバスト最適化(DRO)の一般化であり、2つのデータソースが可能であり、そのうちの1つはラベル付けされていないものは補助的特徴を含む可能性がある。
- 参考スコア(独自算出の注目度): 25.210910180745504
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Suppose we are given two datasets: a labeled dataset and unlabeled dataset
which also has additional auxiliary features not present in the first dataset.
What is the most principled way to use these datasets together to construct a
predictor?
The answer should depend upon whether these datasets are generated by the
same or different distributions over their mutual feature sets, and how similar
the test distribution will be to either of those distributions. In many
applications, the two datasets will likely follow different distributions, but
both may be close to the test distribution. We introduce the problem of
building a predictor which minimizes the maximum loss over all probability
distributions over the original features, auxiliary features, and binary
labels, whose Wasserstein distance is $r_1$ away from the empirical
distribution over the labeled dataset and $r_2$ away from that of the unlabeled
dataset. This can be thought of as a generalization of distributionally robust
optimization (DRO), which allows for two data sources, one of which is
unlabeled and may contain auxiliary features.
- Abstract(参考訳): ラベル付きデータセットとラベルなしデータセットの2つのデータセットが与えられているとしよう。
予測器を構築するために、これらのデータセットを一緒に使う最も原則のある方法は何ですか?
答えは、これらのデータセットが相互特徴集合上の同一または異なる分布によって生成されるかどうか、テスト分布がそれらの分布にどの程度似ているかに依存するべきである。
多くのアプリケーションでは、2つのデータセットは異なる分布に従う可能性が高いが、どちらもテスト分布に近い可能性がある。
本稿では,ラベル付きデータセット上の経験的分布からWasserstein距離が$r_1$,ラベル付きデータセットから$r_2$であるような,元の特徴,補助特徴,バイナリラベルに対する確率分布の最大損失を最小限に抑える予測器を構築することを提案する。
これは分散ロバストな最適化(DRO)の一般化であり、2つのデータソースが可能であり、そのうちの1つはラベル付けされておらず、補助的な特徴を含む可能性がある。
関連論文リスト
- Data Distribution Valuation [56.71023681599737]
既存のデータバリュエーションメソッドは、離散データセットの値を定義します。
多くのユースケースでは、ユーザはデータセットの値だけでなく、データセットがサンプリングされた分布の値にも興味を持っています。
本稿では,理論的原理と実行可能なポリシを実現するための,MMDに基づく評価手法を提案する。
論文 参考訳(メタデータ) (2024-10-06T07:56:53Z) - Cross-Dataset Gaze Estimation by Evidential Inter-intra Fusion [38.93368421481945]
クロスデータセットモデルをトレーニングするための新しいEvidential Inter-Intra Fusion EIFフレームワークを提案する。
さまざまなデータセットに対して独立した単一データセットのブランチを構築します。
さらに、単一データセットのブランチから一般化可能な機能を統合するために、クロスデータセットのブランチを作成します。
論文 参考訳(メタデータ) (2024-09-07T08:53:17Z) - Probabilistic Contrastive Learning for Long-Tailed Visual Recognition [78.70453964041718]
細長い分布は、少数の少数派が限られた数のサンプルを含む実世界のデータにしばしば現れる。
近年の研究では、教師付きコントラスト学習がデータ不均衡を緩和する有望な可能性を示していることが明らかになっている。
本稿では,特徴空間の各クラスからのサンプルデータ分布を推定する確率論的コントラスト学習アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-03-11T13:44:49Z) - Probabilistic Matching of Real and Generated Data Statistics in Generative Adversarial Networks [0.6906005491572401]
本稿では,あるデータ統計量の分布が実データの分布と一致することを確実にする手法を提案する。
提案手法を合成データセットと実世界のデータセットで評価し,提案手法の性能向上を実証した。
論文 参考訳(メタデータ) (2023-06-19T14:03:27Z) - Project and Probe: Sample-Efficient Domain Adaptation by Interpolating
Orthogonal Features [119.22672589020394]
多様な特徴の集合を学習し,これらの特徴を補間することによって対象分布に適応する,軽量でサンプル効率のよい手法を提案する。
複数の分散シフト設定を持つ4つのデータセットに対する実験により、Pro$2$は、限られたターゲットデータが与えられた場合、パフォーマンスを5~15%向上することが示された。
論文 参考訳(メタデータ) (2023-02-10T18:58:03Z) - Generating Data to Mitigate Spurious Correlations in Natural Language
Inference Datasets [27.562256973255728]
自然言語処理モデルはしばしば、タスクに依存しない特徴とデータセットのラベルの間の急激な相関を利用して、トレーニング対象のディストリビューション内でのみうまく機能する。
そこで本研究では, 脱バイアス化したデータセットを生成して, 脱バイアス化したオフザシェルフモデルをトレーニングする手法を提案する。
提案手法は,1)高品質なラベル一貫性のあるデータサンプルを生成するためのデータジェネレータの訓練方法,2)素粒子相関に寄与するデータ点を除去するフィルタリング機構から構成される。
論文 参考訳(メタデータ) (2022-03-24T09:08:05Z) - Diversify and Disambiguate: Learning From Underspecified Data [76.67228314592904]
DivDisは、テストディストリビューションからラベルのないデータを活用することで、タスクに対するさまざまな仮説のコレクションを学ぶフレームワークである。
我々はDivDisが画像分類や自然言語処理問題において頑健な特徴を用いた仮説を見つける能力を示す。
論文 参考訳(メタデータ) (2022-02-07T18:59:06Z) - Improving Contrastive Learning on Imbalanced Seed Data via Open-World
Sampling [96.8742582581744]
我々は、Model-Aware K-center (MAK)と呼ばれるオープンワールドなラベルなしデータサンプリングフレームワークを提案する。
MAKは、尾性、近接性、多様性の3つの単純な原則に従う。
我々はMAKが学習した機能の全体的な表現品質とクラスバランス性の両方を継続的に改善できることを実証した。
論文 参考訳(メタデータ) (2021-11-01T15:09:41Z) - Dealing with Distribution Mismatch in Semi-supervised Deep Learning for
Covid-19 Detection Using Chest X-ray Images: A Novel Approach Using Feature
Densities [0.6882042556551609]
半教師付きディープラーニングは、大きなラベル付きデータセットの魅力的な代替手段である。
実世界の使用状況設定では、ラベル付きデータセットとは異なる分布を示す可能性がある。
これにより、ラベル付きデータセットとラベル付きデータセットの分散ミスマッチが発生します。
論文 参考訳(メタデータ) (2021-08-17T00:35:43Z) - EvoSplit: An evolutionary approach to split a multi-label data set into
disjoint subsets [0.0]
本稿では、教師付き機械学習のための非結合サブセットにマルチラベルデータセットを分散するための新しい進化的アプローチであるEvoSplitを提案する。
どちらのアプローチも、よく知られたマルチラベルデータセットと、現在コンピュータビジョンや機械学習アプリケーションで使われている大規模な画像データセットを使用して検証される。
論文 参考訳(メタデータ) (2021-02-11T17:53:21Z) - Graph Embedding with Data Uncertainty [113.39838145450007]
スペクトルベースのサブスペース学習は、多くの機械学習パイプラインにおいて、一般的なデータ前処理ステップである。
ほとんどの部分空間学習法は、不確実性の高いデータにつながる可能性のある測定の不正確さやアーティファクトを考慮していない。
論文 参考訳(メタデータ) (2020-09-01T15:08:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。