論文の概要: Let Samples Speak: Mitigating Spurious Correlation by Exploiting the Clusterness of Samples
- arxiv url: http://arxiv.org/abs/2512.22874v1
- Date: Sun, 28 Dec 2025 10:54:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-30 22:37:30.261935
- Title: Let Samples Speak: Mitigating Spurious Correlation by Exploiting the Clusterness of Samples
- Title(参考訳): サンプルを語る:サンプルのクラスター性を爆発させることによるスパーラス相関の緩和
- Authors: Weiwei Li, Junzhuo Liu, Yuanyuan Ren, Yuchen Zheng, Yahao Liu, Wen Li,
- Abstract要約: ディープラーニングモデルは、トレーニング中にクラスラベルと急激な相関関係を持つ機能を学ぶが、予測タスクとは無関係である。
既存の手法は通常、潜在的なスパイラルな属性を注釈付けしたり、経験的な仮定に基づいてスパイラルな特徴をフィルタリングすることでこの問題に対処する。
本稿では,深層学習モデルにおける突発的相関を緩和するデータ指向手法を提案する。
- 参考スコア(独自算出の注目度): 11.727747752958436
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Deep learning models are known to often learn features that spuriously correlate with the class label during training but are irrelevant to the prediction task. Existing methods typically address this issue by annotating potential spurious attributes, or filtering spurious features based on some empirical assumptions (e.g., simplicity of bias). However, these methods may yield unsatisfactory performance due to the intricate and elusive nature of spurious correlations in real-world data. In this paper, we propose a data-oriented approach to mitigate the spurious correlation in deep learning models. We observe that samples that are influenced by spurious features tend to exhibit a dispersed distribution in the learned feature space. This allows us to identify the presence of spurious features. Subsequently, we obtain a bias-invariant representation by neutralizing the spurious features based on a simple grouping strategy. Then, we learn a feature transformation to eliminate the spurious features by aligning with this bias-invariant representation. Finally, we update the classifier by incorporating the learned feature transformation and obtain an unbiased model. By integrating the aforementioned identifying, neutralizing, eliminating and updating procedures, we build an effective pipeline for mitigating spurious correlation. Experiments on image and NLP debiasing benchmarks show an improvement in worst group accuracy of more than 20% compared to standard empirical risk minimization (ERM). Codes and checkpoints are available at https://github.com/davelee-uestc/nsf_debiasing .
- Abstract(参考訳): ディープラーニングモデルは、トレーニング中にクラスラベルと急激な相関関係を持つ機能を学ぶことがよく知られているが、予測タスクとは無関係である。
既存の手法は通常、潜在的なスパイラルな属性を注釈付けしたり、経験的な仮定(例えばバイアスの単純さ)に基づいてスパイラルな特徴をフィルタリングすることでこの問題に対処する。
しかし、これらの手法は、現実世界のデータにおける突発的相関の複雑かつ解明的な性質により、不満足な性能をもたらす可能性がある。
本稿では,深層学習モデルにおける突発的相関を緩和するデータ指向手法を提案する。
予備特徴量に影響されたサンプルは,学習した特徴量空間に分散分布を示す傾向にある。
これにより、突発的な機能の存在を特定できます。
その後、簡単なグルーピング戦略に基づいて、突発的特徴を中和することでバイアス不変表現を得る。
そして、このバイアス不変表現と整合して、突発的な特徴を排除するために、特徴変換を学ぶ。
最後に、学習した特徴変換を組み込んで分類器を更新し、バイアスのないモデルを得る。
上記の識別,中和,削除,更新の手順を統合することで,突発的相関を緩和する効果的なパイプラインを構築する。
画像およびNLPデバイアスベンチマークの実験では、標準的な経験的リスク最小化(ERM)と比較して、最悪のグループ精度が20%以上向上した。
コードとチェックポイントはhttps://github.com/davelee-uestc/nsf_debiasing.comで公開されている。
関連論文リスト
- ShortcutProbe: Probing Prediction Shortcuts for Learning Robust Models [26.544938760265136]
ディープラーニングモデルは、必然的にターゲットと非本質的な特徴の間の急激な相関を学習する。
本稿では,グループラベルを必要とせず,新たなポストホックスプリアスバイアス緩和フレームワークを提案する。
我々のフレームワークであるShortcutProbeは、与えられたモデルの潜在空間における予測の非破壊性を反映した予測ショートカットを識別する。
論文 参考訳(メタデータ) (2025-05-20T04:21:17Z) - Common-Sense Bias Modeling for Classification Tasks [15.683471433842492]
テキスト記述に基づく画像データセットの包括的バイアスを抽出する新しい枠組みを提案する。
提案手法は,複数の画像ベンチマークデータセットにおける新しいモデルバイアスを明らかにする。
発見されたバイアスは、機能の非相関化のために、単純なデータ再重み付けによって緩和することができる。
論文 参考訳(メタデータ) (2024-01-24T03:56:07Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Decorrelate Irrelevant, Purify Relevant: Overcome Textual Spurious
Correlations from a Feature Perspective [47.10907370311025]
自然言語理解(NLU)モデルは、散発的な相関(すなわちデータセットバイアス)に頼る傾向があり、分布内データセットでは高い性能を得るが、分布外データセットでは性能が劣る。
既存のデバイアス法のほとんどは、バイアスのある特徴を持つサンプルを識別し、弱めていることが多い。
サンプルの重み付けは、サンプルの偏りのない部分から学習する際のモデルを妨げる。
本稿では,特徴空間の観点から,微粒な方法でスプリアス相関を除去することを提案する。
論文 参考訳(メタデータ) (2022-02-16T13:23:14Z) - Learning Debiased and Disentangled Representations for Semantic
Segmentation [52.35766945827972]
セマンティックセグメンテーションのためのモデルに依存しない訓練手法を提案する。
各トレーニングイテレーションで特定のクラス情報をランダムに除去することにより、クラス間の機能依存を効果的に削減する。
提案手法で訓練したモデルは,複数のセマンティックセグメンテーションベンチマークにおいて強い結果を示す。
論文 参考訳(メタデータ) (2021-10-31T16:15:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。