論文の概要: Representation Invariance and Allocation: When Subgroup Balance Matters
- arxiv url: http://arxiv.org/abs/2512.09496v1
- Date: Wed, 10 Dec 2025 10:19:48 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-11 15:14:53.478634
- Title: Representation Invariance and Allocation: When Subgroup Balance Matters
- Title(参考訳): 表現不変性と割当:サブグループバランスが重要なとき
- Authors: Anissa Alloula, Charles Jones, Zuzanna Wakefield-Skorniewska, Francesco Quinzan, Bartłomiej Papież,
- Abstract要約: 不均衡なデータ分布は、実際にはサブグループのパフォーマンスを改善するが、トレーニング中にサブグループ全体の欠如によって、サブグループのパフォーマンスが影響を受けない場合もある。
本稿では,部分微調整されたモデルの部分群表現への依存が,事前学習されたモデルの潜在空間における部分群間の分離の度合いによって決定されることを示す潜在分離仮説を提案する。
- 参考スコア(独自算出の注目度): 2.910375306412165
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Unequal representation of demographic groups in training data poses challenges to model generalisation across populations. Standard practice assumes that balancing subgroup representation optimises performance. However, recent empirical results contradict this assumption: in some cases, imbalanced data distributions actually improve subgroup performance, while in others, subgroup performance remains unaffected by the absence of an entire subgroup during training. We conduct a systematic study of subgroup allocation across four vision and language models, varying training data composition to characterise the sensitivity of subgroup performance to data balance. We propose the latent separation hypothesis, which states that a partially fine-tuned model's dependence on subgroup representation is determined by the degree of separation between subgroups in the latent space of the pre-trained model. We formalise this hypothesis, provide theoretical analysis, and validate it empirically. Finally, we present a practical application to foundation model fine-tuning, demonstrating that quantitative analysis of latent subgroup separation can inform data collection and balancing decisions.
- Abstract(参考訳): トレーニングデータにおける人口統計群の不平等な表現は、人口全体にわたる一般化をモデル化する上での課題を提起する。
標準のプラクティスは、サブグループの表現のバランスがパフォーマンスを最適化することを前提としている。
しかし、最近の実証的な結果は、この前提に反するものであり、不均衡なデータ分布は、実際にはサブグループのパフォーマンスを改善する一方で、トレーニング中にサブグループ全体の欠如によって、サブグループのパフォーマンスは影響を受けない。
我々は、4つの視覚モデルと言語モデルにまたがるサブグループアロケーションの体系的研究を行い、サブグループパフォーマンスとデータバランスの感度を特徴付けるためのトレーニングデータ構成を変化させる。
本稿では,部分微調整されたモデルの部分群表現への依存が,事前学習されたモデルの潜在空間における部分群間の分離の度合いによって決定されることを示す潜在分離仮説を提案する。
この仮説を定式化し、理論解析を行い、実証的に検証する。
最後に, 基礎モデル微調整への実践的応用として, 潜伏部分群分離の定量的解析がデータ収集やバランス決定に役立てることを示す。
関連論文リスト
- Understanding challenges to the interpretation of disaggregated evaluations of algorithmic fairness [49.35494016290887]
関係する人口を表わすが、実世界の格差を反映するデータである場合、サブグループ間での平等なパフォーマンスは、信頼できない公平さの尺度であることを示す。
本フレームワークでは, 因果関係の明示的な仮定と分析を相補して, 相反や分布変化の制御を提案する。
論文 参考訳(メタデータ) (2025-06-04T17:40:31Z) - An active learning framework for multi-group mean estimation [11.799152724436999]
未知のデータ分布を持つ複数のグループを対象とした基礎学習問題について検討する。
本稿では, 分散推定値に拘束される上限値に基づいて群を逐次選択するアルゴリズム, Variance-UCBを提案する。
論文 参考訳(メタデータ) (2025-05-20T20:13:04Z) - A structured regression approach for evaluating model performance across intersectional subgroups [53.91682617836498]
分散評価(disaggregated evaluation)は、AIフェアネスアセスメントにおける中心的なタスクであり、AIシステムのさまざまなサブグループ間でのパフォーマンスを測定することを目的としている。
非常に小さなサブグループであっても,信頼性の高いシステム性能推定値が得られることを示す。
論文 参考訳(メタデータ) (2024-01-26T14:21:45Z) - The Role of Subgroup Separability in Group-Fair Medical Image
Classification [18.29079361470428]
診断などの系統的バイアスを伴うデータを用いて, サブグループ分離性, サブグループ分離性, 性能劣化の関係について検討した。
私たちの発見は、モデルがどのように偏見を抱くかという問題に新たな光を当て、公正な医療画像AIの開発に重要な洞察を与えました。
論文 参考訳(メタデータ) (2023-07-06T06:06:47Z) - Leveraging Structure for Improved Classification of Grouped Biased Data [8.121462458089143]
データポイントが自然にグループ化されるアプリケーションに対する半教師付きバイナリ分類を検討する。
我々は、この構造を明示的に活用し、最適、グループ対応、確率出力の分類器を学習する半教師付きアルゴリズムを導出する。
論文 参考訳(メタデータ) (2022-12-07T15:18:21Z) - Addressing Missing Sources with Adversarial Support-Matching [8.53946780558779]
そこで本研究では,データ内の2段階階層の2段階に,データの欠如が関係しているシナリオについて検討する。
アルゴリズム的公正性から保護された群の概念に触発され、この第2階層によって彫られた分割を「部分群」と呼ぶ。
私たちは、サブグループに不変な表現を学ぶために、"deployment set"と呼ばれる追加で多様だがラベルなしのデータセットを使用します。
論文 参考訳(メタデータ) (2022-03-24T16:19:19Z) - Towards Group Robustness in the presence of Partial Group Labels [61.33713547766866]
入力サンプルとターゲットラベルの間に 急激な相関関係がある ニューラルネットワークの予測を誤った方向に導く
本稿では,制約セットから最悪のグループ割り当てを最適化するアルゴリズムを提案する。
グループ間で総合的な集計精度を維持しつつ,少数集団のパフォーマンス向上を示す。
論文 参考訳(メタデータ) (2022-01-10T22:04:48Z) - Representation Matters: Assessing the Importance of Subgroup Allocations
in Training Data [85.43008636875345]
訓練データにおける多様な表現は,サブグループのパフォーマンス向上と集団レベルの目標達成の鍵である。
分析と実験は、データセット構成がパフォーマンスにどのように影響するかを説明し、既存のデータにおけるトレンドとドメイン知識を用いて、意図的かつ客観的なデータセット設計を導くのに役立つ構成結果を提供する。
論文 参考訳(メタデータ) (2021-03-05T00:27:08Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。