論文の概要: Mitigating Spurious Correlations with Memorization-Guided Dataset De-Biasing
- arxiv url: http://arxiv.org/abs/2606.02830v1
- Date: Mon, 01 Jun 2026 19:48:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-04 10:57:21.7036
- Title: Mitigating Spurious Correlations with Memorization-Guided Dataset De-Biasing
- Title(参考訳): Memorization-Guided Dataset De-Biasing によるスパーラス相関の緩和
- Authors: Arda Fazla, Abolfazl Hashemi,
- Abstract要約: コアおよびスパイラル特徴の学習力学をアンハングリングする2段階のサンプルスコアリング関数を開発した。
提案手法は,提案手法を用いて,突発的相関を伴わずに,情報的サンプルの発見と優先順位付けを行うアルゴリズムを提案する。
- 参考スコア(独自算出の注目度): 8.645414910735449
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Real-world datasets often contain spurious correlations that are not causally related to the target label. When such correlations dominate the majority of training samples, models tend to rely on them, leading to misclassification of minority samples that do not exhibit the same spurious patterns. While a potential approach is to select subsets of data to better represent the minority samples, this may require access to group labels, which are typically unknown. Furthermore, as we demonstrate, widely used sample scoring functions in the invariant subset or coreset selection literature largely depend on spurious features and therefore fail to accurately capture the importance or difficulty of core, causally relevant features. Accordingly, we propose to mitigate spurious correlations by developing a two-stage sample scoring function that disentangles the learning dynamics of core and spurious features and evaluates their difficulty separately. Based on our proposed metric, we introduce a new algorithm to find and prioritize informative samples both with and without spurious correlations. Extensive experiments demonstrate that a standard ERM model trained on our selected samples achieves superior performance compared to state-of-the-art debiasing techniques, while requiring as little as 10\% of the original training data.
- Abstract(参考訳): 実世界のデータセットは、しばしばターゲットラベルと因果関係のない急激な相関を含んでいる。
このような相関関係がトレーニングサンプルの大部分を占める場合、モデルはそれらに依存する傾向があり、同じ急激なパターンを示さないマイノリティサンプルの誤分類につながる。
潜在的なアプローチは、マイノリティサンプルをよりよく表現するためにデータのサブセットを選択することであるが、通常は未知のグループラベルにアクセスする必要があるかもしれない。
さらに、本論文では、不変部分集合やコアセット選択文献で広く使用されているサンプルスコアリング関数は、主に素早い特徴に依存しているため、因果的特徴であるコアの重要性や難易度を正確に把握することができない。
そこで本研究では,コアおよびスパイラル特徴の学習力学を阻害し,それらの難易度を別々に評価する2段階のサンプルスコアリング機能を開発することにより,突発的相関を緩和することを提案する。
提案手法は,提案手法に基づいて,突発的な相関関係を伴わずに,情報的サンプルの発見と優先順位付けを行うアルゴリズムを提案する。
総合的な実験により, 試料からトレーニングした標準ERMモデルは, 従来のトレーニングデータの10倍程度しか必要とせず, 最先端の脱バイアス技術よりも優れた性能が得られることが示された。
関連論文リスト
- Let Samples Speak: Mitigating Spurious Correlation by Exploiting the Clusterness of Samples [11.727747752958436]
ディープラーニングモデルは、トレーニング中にクラスラベルと急激な相関関係を持つ機能を学ぶが、予測タスクとは無関係である。
既存の手法は通常、潜在的なスパイラルな属性を注釈付けしたり、経験的な仮定に基づいてスパイラルな特徴をフィルタリングすることでこの問題に対処する。
本稿では,深層学習モデルにおける突発的相関を緩和するデータ指向手法を提案する。
論文 参考訳(メタデータ) (2025-12-28T10:54:51Z) - The Impact of Coreset Selection on Spurious Correlations and Group Robustness [27.47900711644272]
コアセット選択手法は、データ効率のよい機械学習のためのモデル性能を維持しながら、トレーニングデータサイズの削減を約束している。
我々は、選択したコアセットの急激なバイアスレベルに対するデータ選択の影響と、それらに基づいてトレーニングされた下流モデルのロバスト性について、初めて包括的分析を行った。
論文 参考訳(メタデータ) (2025-07-15T19:46:30Z) - DDB: Diffusion Driven Balancing to Address Spurious Correlations [24.940576844328408]
経験的リスク最小化でトレーニングされたディープニューラルネットワークは、アウト・オブ・ディストリビューションのサンプルに一般化できないことが多い。
テキストと画像の拡散モデルを用いたトレーニングサンプルを生成するための拡散駆動バランス(DDB)手法を提案する。
実験の結果,本手法は既存の最先端手法よりもグループ精度がよいことがわかった。
論文 参考訳(メタデータ) (2025-03-21T15:28:22Z) - Tackling Diverse Minorities in Imbalanced Classification [80.78227787608714]
不均衡データセットは、様々な現実世界のアプリケーションで一般的に見られ、分類器の訓練において重要な課題が提示されている。
マイノリティクラスとマイノリティクラスの両方のデータサンプルを混合することにより、反復的に合成サンプルを生成することを提案する。
提案するフレームワークの有効性を,7つの公開ベンチマークデータセットを用いて広範な実験により実証する。
論文 参考訳(メタデータ) (2023-08-28T18:48:34Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Self-Evolution Learning for Mixup: Enhance Data Augmentation on Few-Shot
Text Classification Tasks [75.42002070547267]
テキスト分類におけるデータ拡張のための自己進化学習(SE)に基づくミックスアップ手法を提案する。
モデル出力と原サンプルの1つのホットラベルを線形に補間して,新しい軟質なラベル混在を生成する,新しいインスタンス固有ラベル平滑化手法を提案する。
論文 参考訳(メタデータ) (2023-05-22T23:43:23Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Split-PU: Hardness-aware Training Strategy for Positive-Unlabeled
Learning [42.26185670834855]
Positive-Unlabeled (PU) 学習は、稀な正のサンプルと豊富な未ラベルサンプルを持つモデルを学ぶことを目的としている。
本稿では、新しいトレーニングパイプラインを用いて、一般的に使われているnnPUの改善に焦点を当てる。
論文 参考訳(メタデータ) (2022-11-30T05:48:31Z) - An Investigation of Why Overparameterization Exacerbates Spurious
Correlations [98.3066727301239]
この動作を駆動するトレーニングデータの2つの重要な特性を特定します。
モデルの"記憶"に対する帰納的バイアスが,パラメータ化の超過を損なう可能性を示す。
論文 参考訳(メタデータ) (2020-05-09T01:59:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。