論文の概要: Severing Spurious Correlations with Data Pruning
- arxiv url: http://arxiv.org/abs/2503.18258v1
- Date: Mon, 24 Mar 2025 00:57:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-25 14:38:13.727194
- Title: Severing Spurious Correlations with Data Pruning
- Title(参考訳): データ・プルーニングによる清潔な相関の解消
- Authors: Varun Mulchandani, Jung-Eun Kim,
- Abstract要約: 深層ニューラルネットワークは、トレーニングされているデータに現れる刺激的な相関を学習し、依存することが示されている。
このような相関関係は、これらの相関関係がもはや保たない実世界において、これらのネットワークが機能不全を引き起こす可能性がある。
我々はこれらのサンプルを含むトレーニングデータの小さなサブセットを識別し、プーンする新しいデータプルーニング手法を開発した。
- 参考スコア(独自算出の注目度): 2.93774265594295
- License:
- Abstract: Deep neural networks have been shown to learn and rely on spurious correlations present in the data that they are trained on. Reliance on such correlations can cause these networks to malfunction when deployed in the real world, where these correlations may no longer hold. To overcome the learning of and reliance on such correlations, recent studies propose approaches that yield promising results. These works, however, study settings where the strength of the spurious signal is significantly greater than that of the core, invariant signal, making it easier to detect the presence of spurious features in individual training samples and allow for further processing. In this paper, we identify new settings where the strength of the spurious signal is relatively weaker, making it difficult to detect any spurious information while continuing to have catastrophic consequences. We also discover that spurious correlations are learned primarily due to only a handful of all the samples containing the spurious feature and develop a novel data pruning technique that identifies and prunes small subsets of the training data that contain these samples. Our proposed technique does not require inferred domain knowledge, information regarding the sample-wise presence or nature of spurious information, or human intervention. Finally, we show that such data pruning attains state-of-the-art performance on previously studied settings where spurious information is identifiable.
- Abstract(参考訳): 深層ニューラルネットワークは、トレーニングされているデータに現れる刺激的な相関を学習し、依存することが示されている。
このような相関の信頼性は、これらの相関がもはや保たない実世界において、これらのネットワークが機能不全を引き起こす可能性がある。
このような相関関係の学習と信頼を克服するために、近年の研究では、有望な結果をもたらすアプローチを提案する。
しかしながら、これらの研究は、スプリアス信号の強度がコアの強度よりも大幅に大きく、不変な信号であるため、個別のトレーニングサンプルにおけるスプリアス信号の存在を検知し、さらなる処理を可能にする。
本稿では,スプリアス信号の強度が比較的弱い新たな設定を同定し,破滅的な影響を継続しながら,スプリアス情報を検出することを困難にしている。
また,スプリアス特徴を含むサンプルのごく一部のみから,スプリアス相関を学習し,これらのサンプルを含むトレーニングデータの小さなサブセットを同定・抽出する新しいデータプルーニング手法を開発した。
提案手法では, ドメイン知識の推測や, スパイラル情報のサンプル的存在, 性質, 人的介入などの情報を必要としない。
最後に,これらのデータ解析により,突発的情報が特定可能な事前研究環境において,最先端の性能が得られることを示す。
関連論文リスト
- Synthetic Simplicity: Unveiling Bias in Medical Data Augmentation [0.7499722271664144]
医用画像などのデータ共有分野において、合成データがますます重要になっている。
下流のニューラルネットワークは、しばしば、データソースとタスクラベルの間に強い相関があるときに、実データと合成データの急激な区別を利用する。
このエクスプロイトは、真のタスク関連の複雑さではなく、表面的な特徴に過度に依存する、テクスティシビティ単純性バイアスとして現れます。
論文 参考訳(メタデータ) (2024-07-31T15:14:17Z) - Downstream-Pretext Domain Knowledge Traceback for Active Learning [138.02530777915362]
本稿では、下流知識と事前学習指導のデータ相互作用をトレースするダウンストリーム・プレテキスト・ドメイン知識トレース(DOKT)手法を提案する。
DOKTは、トレースバックの多様性指標とドメインベースの不確実性推定器から構成される。
10のデータセットで行った実験は、我々のモデルが他の最先端の手法よりも優れていることを示している。
論文 参考訳(メタデータ) (2024-07-20T01:34:13Z) - Can Active Sampling Reduce Causal Confusion in Offline Reinforcement
Learning? [58.942118128503104]
因果的混乱(英: Causal confusion)とは、エージェントがデータ中の不完全な急激な相関を反映するポリシーを学ぶ現象である。
この現象は特にロボット工学などの領域で顕著である。
本稿では,オフライン強化学習における因果的混乱について検討する。
論文 参考訳(メタデータ) (2023-12-28T17:54:56Z) - Making Self-supervised Learning Robust to Spurious Correlation via
Learning-speed Aware Sampling [26.444935219428036]
自己教師付き学習(SSL)は、ラベルのないデータからリッチな表現を学ぶための強力なテクニックとして登場した。
現実の環境では、いくつかの属性(例えば、人種、性別、年齢)と下流タスクのラベルの間に急激な相関関係がしばしば存在する。
学習速度に逆相関する確率でトレーニングデータをサンプリングする学習速度対応SSL(LA-SSL)アプローチを提案する。
論文 参考訳(メタデータ) (2023-11-27T22:52:45Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Decorrelate Irrelevant, Purify Relevant: Overcome Textual Spurious
Correlations from a Feature Perspective [47.10907370311025]
自然言語理解(NLU)モデルは、散発的な相関(すなわちデータセットバイアス)に頼る傾向があり、分布内データセットでは高い性能を得るが、分布外データセットでは性能が劣る。
既存のデバイアス法のほとんどは、バイアスのある特徴を持つサンプルを識別し、弱めていることが多い。
サンプルの重み付けは、サンプルの偏りのない部分から学習する際のモデルを妨げる。
本稿では,特徴空間の観点から,微粒な方法でスプリアス相関を除去することを提案する。
論文 参考訳(メタデータ) (2022-02-16T13:23:14Z) - Local Intrinsic Dimensionality Signals Adversarial Perturbations [28.328973408891834]
局所次元(Local dimensionality, LID)は、各データポイントを記述するのに必要な潜伏変数の最小数を記述する局所計量である。
本稿では、摂動データポイントのLID値に対する下界と上界を導出し、特に下界は摂動の大きさと正の相関を持つことを示す。
論文 参考訳(メタデータ) (2021-09-24T08:29:50Z) - Combining Feature and Instance Attribution to Detect Artifacts [62.63504976810927]
トレーニングデータアーティファクトの識別を容易にする手法を提案する。
提案手法は,トレーニングデータのアーティファクトの発見に有効であることを示す。
我々は,これらの手法が実際にNLP研究者にとって有用かどうかを評価するために,小規模なユーザスタディを実施している。
論文 参考訳(メタデータ) (2021-07-01T09:26:13Z) - Provably Efficient Causal Reinforcement Learning with Confounded
Observational Data [135.64775986546505]
オフラインで収集されたデータセット(観測データ)を組み込んで、オンライン環境でのサンプル効率を改善する方法について検討する。
提案手法は,観測データを効率よく組み込んだ,分解された楽観的値反復 (DOVI) アルゴリズムを提案する。
論文 参考訳(メタデータ) (2020-06-22T14:49:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。