論文の概要: Fair Dataset Distillation via Cross-Group Barycenter Alignment
- arxiv url: http://arxiv.org/abs/2605.00185v1
- Date: Thu, 30 Apr 2026 20:03:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-04 17:43:28.736568
- Title: Fair Dataset Distillation via Cross-Group Barycenter Alignment
- Title(参考訳): クロスグループバリセンターアライメントによる公正なデータセット蒸留
- Authors: Mohammad Hossein Moslemi, Nima Hosseini Dashtbayaz, Zhimin Mei, Boyu Wang, Bissan Ghaddar,
- Abstract要約: 異なる人口集団が異なる予測パターンを示すため、蒸留プロセスはすべてのサブグループに対する情報的信号の保存に苦慮していることを示す。
すべての部分群に類似した表現を誘導する予測情報の群非均衡非依存のバリセンタを同定する。
提案手法は既存の蒸留法と互換性があり, 実験結果から, データセット蒸留によるバイアスを著しく低減することが示された。
- 参考スコア(独自算出の注目度): 8.167132418487173
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Dataset Distillation aims to compress a large dataset into a small synthetic one while maintaining predictive performance. We show that as different demographic groups exhibit distinct predictive patterns, the distillation process struggles to simultaneously preserve informative signals for all subgroups, regardless of whether group sizes are mildly or severely imbalanced. Consequently, models trained on distilled data can experience substantial performance drops for certain subgroups, leading to fairness gaps. Crucially, these gaps do not disappear by merely correcting group imbalance, since they stem from fundamental mismatches in subgroup predictive patterns rather than from sample-size disparities alone. We therefore formally analyze the interaction between these two sources of bias and cast the solution as identifying a group-imbalance-agnostic barycenter of the predictive information that induces similar representations across all subgroups. By distilling toward this shared aggregate representation, we show that group fairness concerns can be reduced. Our approach is compatible with existing distillation methods, and empirical results show that it substantially reduces bias introduced by dataset distillation.
- Abstract(参考訳): Dataset Distillationは、予測性能を維持しながら、大規模なデータセットを小さな合成データセットに圧縮することを目的としている。
異なる人口集団が異なる予測パターンを示すのに伴い, 蒸留プロセスは, グループサイズが軽度であるか重度の不均衡であるかに関わらず, 全サブグループに対する情報伝達信号の同時保存に苦慮していることが明らかとなった。
その結果、蒸留データに基づいて訓練されたモデルは、ある種のサブグループに対してかなりの性能低下を経験し、公正なギャップを生じさせる。
重要な点として、これらのギャップは、グループ不均衡を単に修正することによって消えるわけではない。
したがって、これらの2つのバイアス源間の相互作用を正式に解析し、この解を全ての部分群に類似した表現を誘導する予測情報の群非均衡非依存のバリセンタを同定するものとしてキャストする。
この共有集合表現に向けて蒸留することにより、群フェアネスの懸念を低減できることを示す。
提案手法は既存の蒸留法と互換性があり, 実験結果から, データセット蒸留によるバイアスを著しく低減することが示された。
関連論文リスト
- Representation Invariance and Allocation: When Subgroup Balance Matters [2.910375306412165]
不均衡なデータ分布は、実際にはサブグループのパフォーマンスを改善するが、トレーニング中にサブグループ全体の欠如によって、サブグループのパフォーマンスが影響を受けない場合もある。
本稿では,部分微調整されたモデルの部分群表現への依存が,事前学習されたモデルの潜在空間における部分群間の分離の度合いによって決定されることを示す潜在分離仮説を提案する。
論文 参考訳(メタデータ) (2025-12-10T10:19:48Z) - Mitigating Clever Hans Strategies in Image Classifiers through Generating Counterexamples [15.618934546058277]
群分布ロバストネス法は、明示的な群ラベルを重みの低い群に頼っている。
本稿では, 種々の偽物を生成するフレームワークCFKDを提案する。
CFKDの有効性を5つのデータセットにまたがって示す。
論文 参考訳(メタデータ) (2025-10-20T13:22:57Z) - Project-Probe-Aggregate: Efficient Fine-Tuning for Group Robustness [61.45587642780908]
画像テキスト基礎モデルのパラメータ効率向上のための3段階のアプローチを提案する。
本手法は, マイノリティ標本同定とロバストトレーニングアルゴリズムの2つの重要な要素を改良する。
我々の理論分析は,PPAが少数群の識別を向上し,バランスの取れたグループエラーを最小限に抑えるためにベイズが最適であることを示している。
論文 参考訳(メタデータ) (2025-03-12T15:46:12Z) - Fairness of Deep Ensembles: On the interplay between per-group task difficulty and under-representation [9.11104048176204]
組立は、機械学習におけるモデルの一般的な性能を改善する効果的な方法として一般的に考えられている。
単純で簡単な手法が相違を緩和し、特に性能の低い部分群に利益をもたらすことを示す。
我々は,サブグループ下表現と各グループ固有の課題の難易度という,バイアスをもたらす可能性のある2つの要因間の相互作用を分析した。
論文 参考訳(メタデータ) (2025-01-24T14:54:01Z) - Simplicity Bias Leads to Amplified Performance Disparities [8.60453031364566]
SGDで訓練されたモデルは、単純さに偏りがあることを示し、多数派の学習を優先させる。
モデルは、単純なデータセットのクラスやグループを優先順位付けし、複雑なものを見つけることを犠牲にすることができる。
論文 参考訳(メタデータ) (2022-12-13T15:24:41Z) - Fair Group-Shared Representations with Normalizing Flows [68.29997072804537]
本研究では,異なるグループに属する個人を1つのグループにマッピングできる公正表現学習アルゴリズムを開発した。
提案手法は,他の公正表現学習アルゴリズムと競合することを示す。
論文 参考訳(メタデータ) (2022-01-17T10:49:49Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Examining and Combating Spurious Features under Distribution Shift [94.31956965507085]
我々は、最小限の統計量という情報理論の概念を用いて、ロバストで刺激的な表現を定義し、分析する。
入力分布のバイアスしか持たない場合でも、モデルはトレーニングデータから急激な特徴を拾い上げることができることを証明しています。
分析から着想を得た結果,グループDROは,グループ同士の相関関係を直接考慮しない場合に失敗する可能性が示唆された。
論文 参考訳(メタデータ) (2021-06-14T05:39:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。