論文の概要: A Representation-Level Assessment of Bias Mitigation in Foundation Models
- arxiv url: http://arxiv.org/abs/2604.08561v1
- Date: Tue, 17 Mar 2026 12:43:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-19 19:09:11.417161
- Title: A Representation-Level Assessment of Bias Mitigation in Foundation Models
- Title(参考訳): 基礎モデルにおけるバイアス低減の表現レベル評価
- Authors: Svetoslav Nizhnichenkov, Rahul Nair, Elizabeth Daly, Brian Mac Namee,
- Abstract要約: バイアス緩和がエンコーダのみおよびデコーダのみの基礎モデルの埋め込み空間に与える影響を検討する。
以上の結果から, バイアス緩和は, 埋め込み空間における性差を減少させることが明らかとなった。
デコーダのみのモデルの評価をさらに促進するため、性別と職業条件の4000のシーケンスからなるデータセットであるWinoDecを紹介した。
- 参考スコア(独自算出の注目度): 14.111258398730273
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: We investigate how successful bias mitigation reshapes the embedding space of encoder-only and decoder-only foundation models, offering an internal audit of model behaviour through representational analysis. Using BERT and Llama2 as representative architectures, we assess the shifts in associations between gender and occupation terms by comparing baseline and bias-mitigated variants of the models. Our findings show that bias mitigation reduces gender-occupation disparities in the embedding space, leading to more neutral and balanced internal representations. These representational shifts are consistent across both model types, suggesting that fairness improvements can manifest as interpretable and geometric transformations. These results position embedding analysis as a valuable tool for understanding and validating the effectiveness of debiasing methods in foundation models. To further promote the assessment of decoder-only models, we introduce WinoDec, a dataset consisting of 4,000 sequences with gender and occupation terms, and release it to the general public. (https://github.com/winodec/wino-dec)
- Abstract(参考訳): 本稿では, バイアス緩和がエンコーダのみおよびデコーダのみの基盤モデルの埋め込み空間にどのような影響をもたらすかを検討する。
BERT と Llama2 を代表的アーキテクチャとして用い、モデルのベースラインとバイアス緩和のバリエーションを比較することにより、性別と職業の用語の関連性の変化を評価する。
以上の結果から, バイアス緩和は, 埋め込み空間における性差を減少させ, より中立的でバランスの取れた内部表現につながることが示唆された。
これらの表現的シフトは両モデルタイプ間で一貫したものであり、公正性の改善は解釈可能かつ幾何学的変換として現れることを示唆している。
これらの結果は,基礎モデルにおけるデバイアス法の有効性を理解し検証するための貴重なツールとして,埋め込み解析を位置づけた。
デコーダのみのモデルの評価をさらに促進するため、性別と職業条件の4000のシーケンスからなるデータセットであるWinoDecを導入し、一般向けに公開する。
(https://github.com/winodec/wino-dec)
関連論文リスト
- Classifier Reconstruction Through Counterfactual-Aware Wasserstein Prototypes [7.568155070224663]
モデル再構成は,両クラスに代表されるサンプルが少なくても,偽物が情報として機能することを認識することで,大幅に改善できることを実証する。
本稿では, ワッサーシュタイン・バリセンタを用いて, 原データと対実データを統合する手法を提案する。
論文 参考訳(メタデータ) (2025-12-11T18:06:49Z) - Decomposing Direct and Indirect Biases in Linear Models under Demographic Parity Constraint [4.129225533930966]
本稿では,結果のバイアスを直接的(知覚的)成分と間接的(相関的)成分に分解する後処理フレームワークを提案する。
本手法は, 感度特性と非感度特性の両方を含むモデル係数が, 人口統計学的にどう影響するかを解析的に評価する。
私たちのフレームワークは、再トレーニングを必要とせず、モデル監査と緩和のために実行可能な洞察を提供する。
論文 参考訳(メタデータ) (2025-11-14T13:27:54Z) - Towards a Unified Representation Evaluation Framework Beyond Downstream Tasks [9.390951257874187]
モデル表現における情報性、等分散、不変性、および要因の分散を定量化するための標準化されたプロトコルを導入する。
類似のダウンストリーム性能を持つモデルからの表現は、これらの属性に関して、かなり異なる振る舞いをすることができる。
論文 参考訳(メタデータ) (2025-05-09T17:58:52Z) - Comparing Fairness of Generative Mobility Models [3.699135947901772]
本研究は、生成モビリティモデルの公平性を検証し、地理的領域にわたるモデルパフォーマンスにおいて、しばしば見落とされがちなエクイティの次元に対処する。
クラウドフローデータに基づいて構築された予測モデルは、都市構造や移動パターンを理解するのに有効である。
生成したトレースの有効性と公平性を測定することによって、公正性を評価するための新しい枠組みを提案する。
論文 参考訳(メタデータ) (2024-11-07T06:01:12Z) - DualFair: Fair Representation Learning at Both Group and Individual
Levels via Contrastive Self-supervision [73.80009454050858]
この研究は、DualFairと呼ばれる自己教師型モデルを提示し、学習された表現から性別や人種などのセンシティブな属性をデバイアスすることができる。
我々のモデルは、グループフェアネスと対実フェアネスという2つのフェアネス基準を共同で最適化する。
論文 参考訳(メタデータ) (2023-03-15T07:13:54Z) - The Unbearable Weight of Massive Privilege: Revisiting Bias-Variance
Trade-Offs in the Context of Fair Prediction [7.975779552420981]
単一モデルによるトレードオフを改善することを目的とした条件付きid(ciid)モデルを提案する。
我々は、CompASおよびフォークテーブルデータセット上で、我々の設定を実証的にテストする。
分析の結果,条件付きモデルが好まれる原則的手順や具体的な実世界のユースケースが存在する可能性が示唆された。
論文 参考訳(メタデータ) (2023-02-17T05:34:35Z) - Debiasing Vision-Language Models via Biased Prompts [79.04467131711775]
本稿では,テキスト埋め込みにおけるバイアスのある方向を投影することで,視覚言語基盤モデルを疎外する一般的な手法を提案する。
偏平投影行列を組み込んだテキストのみをデバイアスすることで、ロバストな分類器と公正な生成モデルが得られることを示す。
論文 参考訳(メタデータ) (2023-01-31T20:09:33Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。