論文の概要: Feature-Weighted Maximum Representative Subsampling
- arxiv url: http://arxiv.org/abs/2603.01013v1
- Date: Sun, 01 Mar 2026 09:47:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.463347
- Title: Feature-Weighted Maximum Representative Subsampling
- Title(参考訳): 特徴量最大代表サブサンプリング
- Authors: Tony Hauptmann, Stefan Kramer,
- Abstract要約: 本研究では,重みの計算に対する偏りが大きい特徴の影響を最小限に抑えるために,重みを用いたアルゴリズムを開発した。
提案アルゴリズムは,非表現型サンプルと代表型サンプルとを整列させることにより,データセットを除去する最大代表サブサンプリング(MRS)に基づく。
特徴重み付きMSSと呼ばれるこの新しいアルゴリズムは、非常にバイアスの多い機能に重点を置いているため、下流タスクのインスタンスを増やすことができる。
- 参考スコア(独自算出の注目度): 1.5960546024967324
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: In the social sciences, it is often necessary to debias studies and surveys before valid conclusions can be drawn. Debiasing algorithms enable the computational removal of bias using sample weights. However, an issue arises when only a subset of features is highly biased, while the rest is already representative. Algorithms need to strongly alter the sample distribution to manage a few highly biased features, which can in turn introduce bias into already representative variables. To address this issue, we developed a method that uses feature weights to minimize the impact of highly biased features on the computation of sample weights. Our algorithm is based on Maximum Representative Subsampling (MRS), which debiases datasets by aligning a non-representative sample with a representative one through iterative removal of elements to create a representative subsample. The new algorithm, named feature-weighted MRS (FW-MRS), decreases the emphasis on highly biased features, allowing it to retain more instances for downstream tasks. The feature weights are derived from the feature importance of a domain classifier trained to differentiate between the representative and non-representative datasets. We validated FW-MRS using eight tabular datasets, each of which we artificially biased. Biased features can be important for downstream tasks, and focusing less on them could lead to a decline in generalization. For this reason, we assessed the generalization performance of FW-MRS on downstream tasks and found no statistically significant differences. Additionally, FW-MRS was applied to a real-world dataset from the social sciences. The source code is available at https://github.com/kramerlab/FeatureWeightDebiasing.
- Abstract(参考訳): 社会科学では、有効な結論が提示される前に、研究や調査を怠ることがしばしば必要である。
偏りのアルゴリズムはサンプル重みを用いた偏りの計算的除去を可能にする。
しかし、機能のサブセットだけが非常に偏りがあるのに対して、残りはすでに代表的である場合に問題が発生する。
アルゴリズムは、いくつかの非常に偏りのある特徴を管理するためにサンプル分布を強く変更する必要がある。
この問題に対処するため,我々は,高バイアス特徴が標本重量の計算に与える影響を最小限に抑えるために,特徴量を用いた手法を開発した。
我々のアルゴリズムは最大代表サブサンプリング(MRS)に基づいており、非表現的なサンプルを要素の反復的除去によって代表サブサンプルと整列させることによりデータセットをデバイザする。
FW-MRS(Feature-weighted MRS)と名付けられたこの新しいアルゴリズムは、高度にバイアスのある機能への重点を減らし、下流タスクのインスタンスを増やす。
特徴重みは、代表的データセットと非表現的データセットを区別するために訓練されたドメイン分類器の特徴的重要性に由来する。
我々は8つの表付きデータセットを用いてFW-MRSを検証する。
バイアスのある機能は下流のタスクにとって重要であり、それらに注力する機会が減ると、一般化が低下する可能性がある。
このため、下流タスクにおけるFW-MRSの一般化性能を評価し、統計的に有意な差は見出さなかった。
さらに、FW-MRSは社会科学の実際のデータセットに適用された。
ソースコードはhttps://github.com/kramerlab/FeatureWeightDebiasing.comで入手できる。
関連論文リスト
- Sebra: Debiasing Through Self-Guided Bias Ranking [54.09529903433859]
微粒なスプリシティ推定による試料のランク付けは,近年,バイアス緩和に大きく寄与することが示されている。
新たなulSelf-Guided ulBias ulRanking(emphSebra)に基づく脱バイアスフレームワークを提案する。
Sebraは、各クラス内のスプリシティによって、データポイントの自動ランキングを通じてバイアスを緩和する。
論文 参考訳(メタデータ) (2025-01-30T11:31:38Z) - Revisiting the Dataset Bias Problem from a Statistical Perspective [72.94990819287551]
統計的観点から「データセットバイアス」問題を考察する。
問題の主な原因は、クラス属性 u と非クラス属性 b の強い相関関係である。
本稿では,各試料nの目的をフラクタル1p(u_n|b_n)で重み付けするか,その試料をフラクタル1p(u_n|b_n)に比例してサンプリングすることにより,データセットバイアスを軽減することを提案する。
論文 参考訳(メタデータ) (2024-02-05T22:58:06Z) - Marginal Debiased Network for Fair Visual Recognition [59.05212866862219]
本稿では,デバイアス表現を学習するための新しい限界脱バイアスネットワーク(MDN)を提案する。
我々のMDNは、表現不足のサンプルに対して顕著な性能を達成できる。
論文 参考訳(メタデータ) (2024-01-04T08:57:09Z) - IBADR: an Iterative Bias-Aware Dataset Refinement Framework for
Debiasing NLU models [52.03761198830643]
IBADR(Iterative Bias-Aware dataset Refinement framework)を提案する。
まず、プール内のサンプルのバイアス度を定量化するために浅いモデルを訓練する。
次に、各サンプルにバイアス度を表すバイアス指標をペアにして、これらの拡張サンプルを使用してサンプルジェネレータを訓練する。
このようにして、このジェネレータは、バイアスインジケータとサンプルの対応関係を効果的に学習することができる。
論文 参考訳(メタデータ) (2023-11-01T04:50:38Z) - General Debiasing for Multimodal Sentiment Analysis [47.05329012210878]
本稿では,MSAモデルのOF(Out-Of-Distribution)一般化能力を高めることを目的とした,MSAタスクの一般化を提案する。
我々はIPWを用いて、大きなバイアスのあるサンプルの効果を低減し、感情予測のための堅牢な特徴学習を容易にする。
実験結果は,提案フレームワークのより優れた一般化能力を示すものである。
論文 参考訳(メタデータ) (2023-07-20T00:36:41Z) - Bias Mimicking: A Simple Sampling Approach for Bias Mitigation [57.17709477668213]
本稿では,新しいクラス条件サンプリング手法であるBias Mimickingを紹介する。
Bias Mimickingは、4つのベンチマークで3%の精度でサンプリングの精度を向上する。
論文 参考訳(メタデータ) (2022-09-30T17:33:00Z) - Fast and Accurate Importance Weighting for Correcting Sample Bias [4.750521042508541]
本稿では,ニューラルネットワークを用いてインスタンス重みを予測し,大規模データセットにスケールする,新たな重み付けアルゴリズムを提案する。
提案手法は,他の重み付け手法と比較して,類似のサンプルバイアス補正性能を維持しつつ,大規模データセット上での計算時間を劇的に短縮することを示す。
論文 参考訳(メタデータ) (2022-09-09T10:01:46Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - BiasEnsemble: Revisiting the Importance of Amplifying Bias for Debiasing [31.665352191081357]
Debiasing”は、データセットバイアスの影響を受けにくいように分類器をトレーニングすることを目的としている。
$f_B$はバイアス整合サンプルにフォーカスするよう訓練され、$f_D$は主にバイアス整合サンプルでトレーニングされる。
本稿では,バイアス分散サンプルを除去する新しいバイアス付きサンプル選択法であるBiasEnsembleを提案する。
論文 参考訳(メタデータ) (2022-05-29T07:55:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。