論文の概要: The Dataset Multiplicity Problem: How Unreliable Data Impacts
Predictions
- arxiv url: http://arxiv.org/abs/2304.10655v1
- Date: Thu, 20 Apr 2023 21:31:15 GMT
- ステータス: 処理完了
- システム内更新日: 2023-04-24 16:24:38.819495
- Title: The Dataset Multiplicity Problem: How Unreliable Data Impacts
Predictions
- Title(参考訳): データセット多重度問題:信頼できないデータが予測に与える影響
- Authors: Anna P. Meyer, Aws Albarghouthi, Loris D'Antoni
- Abstract要約: トレーニングデータセットにおける不正確性、不確実性、社会的バイアスがテスト時間予測にどのように影響するかを研究するための、データセット乗法を導入する。
本稿では,このフレームワークを用いて,データセットの事実性における様々な不確実性ソースをカプセル化する方法について論じる。
実世界のデータセットは、合理的な仮定の下では、データセットの多重性によって予測される多くのテストサンプルを含んでいることを実証分析により示している。
- 参考スコア(独自算出の注目度): 12.00314910031517
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce dataset multiplicity, a way to study how inaccuracies,
uncertainty, and social bias in training datasets impact test-time predictions.
The dataset multiplicity framework asks a counterfactual question of what the
set of resultant models (and associated test-time predictions) would be if we
could somehow access all hypothetical, unbiased versions of the dataset. We
discuss how to use this framework to encapsulate various sources of uncertainty
in datasets' factualness, including systemic social bias, data collection
practices, and noisy labels or features. We show how to exactly analyze the
impacts of dataset multiplicity for a specific model architecture and type of
uncertainty: linear models with label errors. Our empirical analysis shows that
real-world datasets, under reasonable assumptions, contain many test samples
whose predictions are affected by dataset multiplicity. Furthermore, the choice
of domain-specific dataset multiplicity definition determines what samples are
affected, and whether different demographic groups are disparately impacted.
Finally, we discuss implications of dataset multiplicity for machine learning
practice and research, including considerations for when model outcomes should
not be trusted.
- Abstract(参考訳): トレーニングデータセットにおける不正確性、不確実性、社会的バイアスがテスト時間予測にどのように影響するかを研究するための、データセット乗法を導入する。
データセット多重性フレームワーク(dataset multiplicity framework)は、データセットの仮説上、偏りのないすべてのバージョンにアクセス可能であれば、結果モデル(および関連するテスト時間予測)のセットがどうなるかという、事実上の疑問を投げかける。
システム的な社会バイアス,データ収集プラクティス,騒がしいラベルや特徴など,データセットの事実性におけるさまざまな不確実性の源をカプセル化する上で,このフレームワークをどのように利用するかについて議論する。
特定のモデルアーキテクチャと不確実性の種類:ラベルエラーのある線形モデルに対するデータセット乗法の影響を正確に分析する方法を示す。
実世界のデータセットは、合理的な仮定の下で、データセットの多重性によって予測が影響を受ける多くのテストサンプルを含んでいる。
さらに、ドメイン固有のデータセットの多重性定義の選択により、どのサンプルが影響を受けるか、異なるグループが異なる影響を受けるかが決定される。
最後に、機械学習の実践と研究におけるデータセットの多重性の意味について論じ、モデルの成果を信頼すべきでない理由について考察する。
関連論文リスト
- A Dataset for Evaluating Online Anomaly Detection Approaches for Discrete Multivariate Time Series [0.01874930567916036]
現在の公開データセットは小さすぎるため、多様ではない。
我々は、最先端のシミュレーションツールによって生成される多種多様な、広範囲で、非自明なデータセットという解決策を提案する。
トレーニングとテストサブセットが汚染された、クリーンなバージョンで提供されるように、データセットのさまざまなバージョンを利用可能にしています。
予想通り、ベースライン実験では、データセットの半教師付きバージョンでトレーニングされたアプローチが、教師なしバージョンよりも優れていた。
論文 参考訳(メタデータ) (2024-11-21T09:03:12Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - A Language Model-Guided Framework for Mining Time Series with Distributional Shifts [5.082311792764403]
本稿では,大規模言語モデルとデータソースインタフェースを用いて時系列データセットを探索・収集する手法を提案する。
収集したデータは外部ソースから得られるが、一次時系列データセットと重要な統計特性を共有できる。
収集されたデータセットは、既存のデータセット、特にデータ分散の変化を効果的に補うことができることを示唆している。
論文 参考訳(メタデータ) (2024-06-07T20:21:07Z) - UniTraj: A Unified Framework for Scalable Vehicle Trajectory Prediction [93.77809355002591]
さまざまなデータセット、モデル、評価基準を統一する包括的なフレームワークであるUniTrajを紹介する。
我々は広範な実験を行い、他のデータセットに転送するとモデルの性能が大幅に低下することがわかった。
これらの知見を説明するために,データセットの特徴に関する洞察を提供する。
論文 参考訳(メタデータ) (2024-03-22T10:36:50Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Data-driven Model Generalizability in Crosslinguistic Low-resource
Morphological Segmentation [4.339613097080119]
低リソースのシナリオでは、データコレクションのアーティファクトは、外れ値のデータセットを生成できるため、モデルパフォーマンスに関する結論が一致している可能性がある。
パラメータ化の異なるモデルの3つのクラスを比較し、11の言語から6つの言語ファミリーのデータを抽出する。
その結果、モデル一般化の程度はデータセットの特性に依存することが示され、必ずしもデータセットのサイズに大きく依存するとは限らない。
論文 参考訳(メタデータ) (2022-01-05T22:19:10Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Hidden Biases in Unreliable News Detection Datasets [60.71991809782698]
データ収集中の選択バイアスがデータセットの望ましくないアーティファクトにつながることを示す。
クリーンスプリットでテストされたすべてのモデルに対して,列車/テストソースの重なりが無く,精度が大幅に低下した(>10%)。
将来的なデータセット生成には、困難/バイアスプローブとしての単純なモデルと、クリーンな非重複サイトと日付分割を使用する将来のモデル開発が含まれることを提案する。
論文 参考訳(メタデータ) (2021-04-20T17:16:41Z) - Multi-Source Causal Inference Using Control Variates [81.57072928775509]
本稿では,複数のデータソースから因果効果を推定するアルゴリズムを提案する。
理論的には、これはATE推定値の分散を減少させる。
このフレームワークを結果選択バイアスの下で観測データからの推論に適用する。
論文 参考訳(メタデータ) (2021-03-30T21:20:51Z) - Meta Learning for Causal Direction [29.00522306460408]
小型データ設定における原因と効果の区別を可能にする新しい生成モデルを提案する。
提案手法は, 各種合成データと実世界のデータを用いて実証し, 種々のデータセットサイズにおける方向検出の精度を高い精度で維持可能であることを示す。
論文 参考訳(メタデータ) (2020-07-06T15:12:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。