論文の概要: Even Small Correlation and Diversity Shifts Pose Dataset-Bias Issues
- arxiv url: http://arxiv.org/abs/2305.05807v2
- Date: Thu, 21 Dec 2023 11:59:11 GMT
- ステータス: 処理完了
- システム内更新日: 2023-12-22 19:07:55.473423
- Title: Even Small Correlation and Diversity Shifts Pose Dataset-Bias Issues
- Title(参考訳): 相関や多様性の微妙な変化も、データセットとバイアスの問題
- Authors: Alceu Bissoto, Catarina Barata, Eduardo Valle, Sandra Avila
- Abstract要約: 実験サンプルがトレーニング中に見つからないパターンを示す場合の多様性シフトと、テストデータが観察された不変性と急激な特徴の異なる相関を示す場合の相関シフトの2種類について検討した。
そこで我々は,両タイプのシフトをデータセットを用いて分析し,制御可能な方法で共存する統合プロトコルを提案する。
- 参考スコア(独自算出の注目度): 19.4921353136871
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Distribution shifts are common in real-world datasets and can affect the
performance and reliability of deep learning models. In this paper, we study
two types of distribution shifts: diversity shifts, which occur when test
samples exhibit patterns unseen during training, and correlation shifts, which
occur when test data present a different correlation between seen invariant and
spurious features. We propose an integrated protocol to analyze both types of
shifts using datasets where they co-exist in a controllable manner. Finally, we
apply our approach to a real-world classification problem of skin cancer
analysis, using out-of-distribution datasets and specialized bias annotations.
Our protocol reveals three findings: 1) Models learn and propagate correlation
shifts even with low-bias training; this poses a risk of accumulating and
combining unaccountable weak biases; 2) Models learn robust features in high-
and low-bias scenarios but use spurious ones if test samples have them; this
suggests that spurious correlations do not impair the learning of robust
features; 3) Diversity shift can reduce the reliance on spurious correlations;
this is counter intuitive since we expect biased models to depend more on
biases when invariant features are missing. Our work has implications for
distribution shift research and practice, providing new insights into how
models learn and rely on spurious correlations under different types of shifts.
- Abstract(参考訳): 分散シフトは現実世界のデータセットで一般的であり、ディープラーニングモデルのパフォーマンスと信頼性に影響を与える可能性がある。
本稿では,テストサンプルがトレーニング中に見つからないパターンを示す場合の多様性シフトと,テストデータにみられる不変性と刺激的特徴の相関関係を示す場合の相関シフトの2つのタイプの分布シフトについて検討する。
そこで我々は,両タイプのシフトをデータセットを用いて分析し,制御可能な方法で共存する統合プロトコルを提案する。
最後に,本手法を皮膚がん解析の現実世界の分類問題に適用し,アウト・オブ・ディストリビューション・データセットと専用バイアス・アノテーションを用いた。
私たちのプロトコルは3つの発見を示しています
1)低バイアストレーニングにおいても相関シフトを学習し,伝播させるモデル。これは,非可算弱バイアスを蓄積し,組み合わせるリスクを生じさせる。
2) モデルは,高次・低次シナリオにおいて頑健な特徴を学習するが,テストサンプルが持てば刺激的な特徴を使用する。
3) 多様性シフトは、偏りのあるモデルが不変な特徴が欠けているときにバイアスに依存することを期待するので、これは直感的ではない。
私たちの研究は、分散シフトの研究と実践に影響を与え、モデルがどのように学習し、異なるタイプのシフトの下で急激な相関に依存するかについて、新たな洞察を提供する。
関連論文リスト
- Generalization vs. Specialization under Concept Shift [12.196508752999797]
機械学習モデルは、分散シフトの下では不安定であることが多い。
二重降下が欠如している場合でも,テスト性能が非単調なデータ依存を示すことを示す。
MNISTとFashionMNISTの実験は、この興味深い挙動が分類問題にも存在することを示唆している。
論文 参考訳(メタデータ) (2024-09-23T22:30:28Z) - Mitigating Shortcut Learning with Diffusion Counterfactuals and Diverse Ensembles [95.49699178874683]
拡散確率モデル(DPM)を利用したアンサンブル多様化フレームワークDiffDivを提案する。
DPMは、相関した入力特徴を示すサンプルを用いて訓練しても、新しい特徴の組み合わせで画像を生成することができることを示す。
そこで本研究では,DPM誘導の多様化は,教師付き信号の追加を必要とせず,ショートカットキューへの依存を取り除くのに十分であることを示す。
論文 参考訳(メタデータ) (2023-11-23T15:47:33Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Explanation Shift: How Did the Distribution Shift Impact the Model? [23.403838118256907]
本研究では,分布変化による説明特性の変化について検討した。
我々は、合成例と実世界のデータセットを用いて、異なる種類の分布シフトを分析する。
我々は、実験を再現するために使用されるコードと同様に、オープンソースのPythonパッケージでメソッドをリリースします。
論文 参考訳(メタデータ) (2023-03-14T17:13:01Z) - Unleashing the Power of Graph Data Augmentation on Covariate
Distribution Shift [50.98086766507025]
本稿では,AIA(Adversarial Invariant Augmentation)という,シンプルで効率の良いデータ拡張戦略を提案する。
AIAは、拡張プロセス中に元の安定した特徴を同時に保存しながら、新しい環境をエクスポーレーションし、生成することを目的としている。
論文 参考訳(メタデータ) (2022-11-05T07:55:55Z) - On the Strong Correlation Between Model Invariance and Generalization [54.812786542023325]
一般化は、見えないデータを分類するモデルの能力をキャプチャする。
不変性はデータの変換におけるモデル予測の一貫性を測定する。
データセット中心の視点から、あるモデルの精度と不変性は異なるテストセット上で線形に相関している。
論文 参考訳(メタデータ) (2022-07-14T17:08:25Z) - Equivariance Allows Handling Multiple Nuisance Variables When Analyzing
Pooled Neuroimaging Datasets [53.34152466646884]
本稿では,構造空間上でインスタンス化された同変表現学習における最近の結果と,因果推論における古典的結果の簡易な利用が,いかに効果的に実現されたかを示す。
いくつかの仮定の下で、我々のモデルが複数のニュアンス変数を扱えることを実証し、そうでなければサンプルの大部分を取り除く必要のあるシナリオにおいて、プールされた科学データセットの分析を可能にする。
論文 参考訳(メタデータ) (2022-03-29T04:54:06Z) - Learning Debiased Representation via Disentangled Feature Augmentation [19.348340314001756]
本稿では, 様々なバイアスを伴うサンプルを用いたトレーニングが, 脱バイアスに不可欠であることを示す実験的検討を行った。
本稿では, 多様なバイアス分散サンプルを合成するために, 特徴レベルのデータ拡張手法を提案する。
論文 参考訳(メタデータ) (2021-07-03T08:03:25Z) - Counterfactual Invariance to Spurious Correlations: Why and How to Pass
Stress Tests [87.60900567941428]
素早い相関」とは、アナリストが重要とすべきでないと考える入力データのある側面に対するモデルの依存である。
機械学習では、これらにはノウ・イ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ・ウ」という特徴がある。
因果推論ツールを用いたストレステストについて検討した。
論文 参考訳(メタデータ) (2021-05-31T14:39:38Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。