論文の概要: The Impact of Coreset Selection on Spurious Correlations and Group Robustness
- arxiv url: http://arxiv.org/abs/2507.11690v1
- Date: Tue, 15 Jul 2025 19:46:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-17 19:00:11.128693
- Title: The Impact of Coreset Selection on Spurious Correlations and Group Robustness
- Title(参考訳): コアセット選択が純度相関とグループロバスト性に及ぼす影響
- Authors: Amaya Dharmasiri, William Yang, Polina Kirichenko, Lydia Liu, Olga Russakovsky,
- Abstract要約: コアセット選択手法は、データ効率のよい機械学習のためのモデル性能を維持しながら、トレーニングデータサイズの削減を約束している。
我々は、選択したコアセットの急激なバイアスレベルに対するデータ選択の影響と、それらに基づいてトレーニングされた下流モデルのロバスト性について、初めて包括的分析を行った。
- 参考スコア(独自算出の注目度): 29.00056007029943
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Coreset selection methods have shown promise in reducing the training data size while maintaining model performance for data-efficient machine learning. However, as many datasets suffer from biases that cause models to learn spurious correlations instead of causal features, it is important to understand whether and how dataset reduction methods may perpetuate, amplify, or mitigate these biases. In this work, we conduct the first comprehensive analysis of the implications of data selection on the spurious bias levels of the selected coresets and the robustness of downstream models trained on them. We use an extensive experimental setting spanning ten different spurious correlations benchmarks, five score metrics to characterize sample importance/ difficulty, and five data selection policies across a broad range of coreset sizes. Thereby, we unravel a series of nontrivial nuances in interactions between sample difficulty and bias alignment, as well as dataset bias and resultant model robustness. For example, we find that selecting coresets using embedding-based sample characterization scores runs a comparatively lower risk of inadvertently exacerbating bias than selecting using characterizations based on learning dynamics. Most importantly, our analysis reveals that although some coreset selection methods could achieve lower bias levels by prioritizing difficult samples, they do not reliably guarantee downstream robustness.
- Abstract(参考訳): コアセット選択手法は、データ効率のよい機械学習のためのモデル性能を維持しながら、トレーニングデータサイズの削減を約束している。
しかし、多くのデータセットが因果的特徴ではなく、モデルに急激な相関関係を学習させるバイアスに悩まされているため、データセットの削減手法がこれらのバイアスを永続的、増幅的、緩和するかどうかを理解することが重要である。
本研究では,選択したコアセットの急激なバイアスレベルに対するデータ選択の影響と,それらに基づいてトレーニングされた下流モデルのロバスト性について,初めて包括的解析を行った。
10の異なる相関ベンチマーク、サンプルの重要性/難易度を特徴付ける5つのスコアメトリクス、および幅広いコアセットサイズにわたる5つのデータ選択ポリシーにまたがる広範な実験的な設定を使用する。
これにより、サンプルの難易度とバイアスアライメント、およびデータセットバイアスと結果のモデルロバストネスの相互作用において、一連の非自明なニュアンスを開拓する。
例えば, 埋め込み型サンプル評価スコアを用いたコアセットの選択は, 学習力学に基づく評価値の選択よりも, バイアスが必然的に悪化するリスクが比較的低いことがわかった。
最も重要なことは、いくつかのコアセット選択法は、難しいサンプルを優先順位付けすることでバイアスレベルを低くすることができるが、下流の堅牢性は確実に保証されないことである。
関連論文リスト
- Coreset Selection via LLM-based Concept Bottlenecks [6.857632954159568]
Coreset Selection(CS)は、データセット全体の使用に匹敵するモデルパフォーマンスを達成するトレーニングデータセットのサブセットを特定することを目的としている。
本研究は,ダウンストリームモデルに依存しない人間の理解可能なテキスト属性(概念)を用いて,サンプルの難易度を計算するスコアを提案する。
我々のコアセットは高いプルーニングレートでもランダムなサブセットよりも優れており、動的手法を訓練することによって得られるコアセットに匹敵するモデル性能を実現している。
論文 参考訳(メタデータ) (2025-02-23T22:14:42Z) - A CLIP-Powered Framework for Robust and Generalizable Data Selection [51.46695086779598]
実世界のデータセットは、しばしば冗長でノイズの多いデータを含み、トレーニング効率とモデルパフォーマンスに悪影響を及ぼす。
データ選択は、データセット全体から最も代表的なサンプルを特定することを約束している。
より堅牢で一般化可能なサンプル選択にマルチモーダル情報を活用するCLIPを利用した新しいデータ選択フレームワークを提案する。
論文 参考訳(メタデータ) (2024-10-15T03:00:58Z) - Common-Sense Bias Modeling for Classification Tasks [15.683471433842492]
テキスト記述に基づく画像データセットの包括的バイアスを抽出する新しい枠組みを提案する。
提案手法は,複数の画像ベンチマークデータセットにおける新しいモデルバイアスを明らかにする。
発見されたバイアスは、機能の非相関化のために、単純なデータ再重み付けによって緩和することができる。
論文 参考訳(メタデータ) (2024-01-24T03:56:07Z) - D2 Pruning: Message Passing for Balancing Diversity and Difficulty in
Data Pruning [70.98091101459421]
コアセット選択は、トレーニングデータのサブセットを選択して、このサブセット(コアセットとも呼ばれる)でトレーニングされたモデルのパフォーマンスを最大化する。
コアセット選択のために,このデータセットグラフ上で前後のメッセージパッシングを利用する新しいプルーニングアルゴリズムD2プルーニングを提案する。
その結果、D2プルーニングは従来の最先端手法よりもコアセット選択を向上し、最大70%のプルーニングレートが得られた。
論文 参考訳(メタデータ) (2023-10-11T23:01:29Z) - Stubborn Lexical Bias in Data and Models [50.79738900885665]
我々は、データに基づいてトレーニングされたモデルに、データのスプリアスパターンが現れるかどうかを調べるために、新しい統計手法を用いる。
トレーニングデータに*reweight*に最適化アプローチを適用し、数千のスプリアス相関を低減します。
驚くべきことに、この方法ではトレーニングデータの語彙バイアスを低減できますが、トレーニングされたモデルで対応するバイアスの強い証拠がまだ見つかっていません。
論文 参考訳(メタデータ) (2023-06-03T20:12:27Z) - Feature-Level Debiased Natural Language Understanding [86.8751772146264]
既存の自然言語理解(NLU)モデルは、特定のデータセットで高いパフォーマンスを達成するために、データセットバイアスに依存することが多い。
本稿では, バイアスの潜在特性を緩和し, バイアスの動的性質を無視するために, DCT(Debiasing contrastive learning)を提案する。
DCTは、ディストリビューション内のパフォーマンスを維持しながら、アウトオブディストリビューションデータセットの最先端のベースラインを上回ります。
論文 参考訳(メタデータ) (2022-12-11T06:16:14Z) - Selecting the suitable resampling strategy for imbalanced data
classification regarding dataset properties [62.997667081978825]
医学、情報検索、サイバーセキュリティ、ソーシャルメディアなどの多くのアプリケーションドメインでは、分類モデルの導入に使用されるデータセットは、各クラスのインスタンスの不平等な分布を持つことが多い。
この状況は不均衡データ分類と呼ばれ、少数民族の例では予測性能が低い。
オーバーサンプリングとアンダーサンプリングの技術は、各クラスの例の数とバランスをとることでこの問題に対処する、よく知られた戦略である。
論文 参考訳(メタデータ) (2021-12-15T18:56:39Z) - Online Coreset Selection for Rehearsal-based Continual Learning [65.85595842458882]
継続的な学習では、後に再生されるトレーニング例(コアセット)のサブセットを格納し、破滅的な忘れを軽減します。
提案するオンラインコアセット選択(OCS, Online Coreset Selection)は, 各イテレーションにおいて最も代表的で情報性の高いコアセットを選択するシンプルで効果的な方法である。
提案手法は,過去のタスクに対して高親和性サンプルを選択しながら,目標データセットへのモデル適応を最大化し,破滅的忘れを直接的に抑制する。
論文 参考訳(メタデータ) (2021-06-02T11:39:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。