論文の概要: Augmenting Bias Detection in LLMs Using Topological Data Analysis
- arxiv url: http://arxiv.org/abs/2508.07516v1
- Date: Mon, 11 Aug 2025 00:19:47 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-12 21:23:28.892247
- Title: Augmenting Bias Detection in LLMs Using Topological Data Analysis
- Title(参考訳): トポロジカルデータ解析によるLLMのバイアス検出
- Authors: Keshav Varadarajan, Tananun Songdechakraiwut,
- Abstract要約: 本稿では,StereoSetデータセットに存在するアイデンティティグループを,どのヘッダが表現に寄与しているかを特定するために,トポロジカルデータ解析を用いた手法を提案する。
性別や職業など、特定のカテゴリーの偏見は、ホットスポットとして機能する注目の頭脳に集中していることがわかりました。
提案する指標は、偏り圏内の特定の群に対してどの頭部が偏りを捉えているかを決定するためにも用いられる。
- 参考スコア(独自算出の注目度): 0.9208007322096533
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recently, many bias detection methods have been proposed to determine the level of bias a large language model captures. However, tests to identify which parts of a large language model are responsible for bias towards specific groups remain underdeveloped. In this study, we present a method using topological data analysis to identify which heads in GPT-2 contribute to the misrepresentation of identity groups present in the StereoSet dataset. We find that biases for particular categories, such as gender or profession, are concentrated in attention heads that act as hot spots. The metric we propose can also be used to determine which heads capture bias for a specific group within a bias category, and future work could extend this method to help de-bias large language models.
- Abstract(参考訳): 近年,大規模言語モデルが捉えたバイアスのレベルを決定するために,多くのバイアス検出手法が提案されている。
しかし、大きな言語モデルのどの部分が特定のグループに対するバイアスの原因であるかを特定するテストは未開発のままである。
本研究では,GPT-2のどの頭部がStereoSetデータセットに存在する同一性群の誤表現に寄与しているかを,トポロジカルデータ解析を用いて同定する手法を提案する。
性別や職業など、特定のカテゴリーの偏見は、ホットスポットとして機能する注目の頭脳に集中していることがわかりました。
我々の提案する指標は、偏り圏内の特定のグループに対してどの頭部が偏りを捉えているかを決定するためにも用いることができ、将来の研究は、この手法を拡張して大きな言語モデルを非偏りにすることに役立つかもしれない。
関連論文リスト
- A Feature-level Bias Evaluation Framework for Facial Expression Recognition Models [0.0]
我々は,偏り評価結果の統計的意義を保証するために,プラグアンドプレイ統計モジュールを導入する。
次に、包括的なバイアス分析を、3つのセンシティブな属性(年齢、性別、人種)、7つの表情、大規模データセット上の複数のネットワークアーキテクチャで実施する。
論文 参考訳(メタデータ) (2025-05-26T20:26:07Z) - This Prompt is Measuring <MASK>: Evaluating Bias Evaluation in Language
Models [12.214260053244871]
言語モデルのバイアスを評価するためにプロンプトとテンプレートを使用する作業の本体を分析します。
我々は、バイアステストが測定する目的を捉える属性の分類を作成するために、測定モデリングフレームワークを設計する。
我々の分析は、フィールドが測定できる可能性のあるバイアスタイプの範囲を照らし、まだ調査されていないタイプを明らかにします。
論文 参考訳(メタデータ) (2023-05-22T06:28:48Z) - Feature Importance Disparities for Data Bias Investigations [2.184775414778289]
分類器における下流バイアスの1つの原因は、トレーニングデータに存在するバイアスであると広く考えられている。
保護された機能と保護されていない機能からなるデータセットの$X$、結果の$y$、および$X$の$y$を予測するregressor $h$を示す。
機械学習コミュニティは、指数関数的に大きなサブグループクラスでさえ、大きなFID値を持つサブグループを効率的に見つけることができる。
論文 参考訳(メタデータ) (2023-03-03T04:12:04Z) - Counter-GAP: Counterfactual Bias Evaluation through Gendered Ambiguous
Pronouns [53.62845317039185]
バイアス測定データセットは、言語モデルのバイアスされた振る舞いを検出する上で重要な役割を果たす。
本稿では, 多様な, 自然な, 最小限のテキストペアを, 対物生成によって収集する新しい手法を提案する。
事前学習された4つの言語モデルは、各グループ内よりも、異なる性別グループ間でかなり不整合であることを示す。
論文 参考訳(メタデータ) (2023-02-11T12:11:03Z) - Causally Testing Gender Bias in LLMs: A Case Study on Occupational Bias [33.99768156365231]
生成言語モデルにおけるバイアス測定のための因果的定式化を導入する。
我々はOccuGenderというベンチマークを提案し、職業性バイアスを調査するためのバイアス測定手法を提案する。
以上の結果から,これらのモデルでは職業性バイアスがかなり大きいことが示唆された。
論文 参考訳(メタデータ) (2022-12-20T22:41:24Z) - "I'm sorry to hear that": Finding New Biases in Language Models with a
Holistic Descriptor Dataset [12.000335510088648]
新しい包括的バイアス測定データセットであるHollisticBiasを紹介します。
HolisticBiasは、これらの用語の生きた経験を持つ専門家やコミュニティメンバーを含む参加的なプロセスで組み立てられた。
我々は,HolisticBiasが,言語モデルからトークンの確率において,検出不能なバイアスを測定するのに有効であることを実証した。
論文 参考訳(メタデータ) (2022-05-18T20:37:25Z) - General Greedy De-bias Learning [163.65789778416172]
本稿では,関数空間における勾配降下のような偏りのあるモデルとベースモデルを優雅に訓練する一般グリーディ・デバイアス学習フレームワーク(GGD)を提案する。
GGDは、事前知識を持つタスク固有バイアスモデルと、事前知識を持たない自己アンサンブルバイアスモデルの両方の設定の下で、より堅牢なベースモデルを学ぶことができる。
論文 参考訳(メタデータ) (2021-12-20T14:47:32Z) - Balancing Biases and Preserving Privacy on Balanced Faces in the Wild [50.915684171879036]
現在の顔認識(FR)モデルには、人口統計バイアスが存在する。
さまざまな民族と性別のサブグループにまたがる偏見を測定するために、我々のバランス・フェイススをWildデータセットに導入します。
真偽と偽のサンプルペアを区別するために1点のスコアしきい値に依存すると、最適以下の結果が得られます。
本稿では,最先端ニューラルネットワークから抽出した顔特徴を用いたドメイン適応学習手法を提案する。
論文 参考訳(メタデータ) (2021-03-16T15:05:49Z) - LOGAN: Local Group Bias Detection by Clustering [86.38331353310114]
コーパスレベルでバイアスを評価することは、モデルにバイアスがどのように埋め込まれているかを理解するのに十分ではない、と我々は主張する。
クラスタリングに基づく新しいバイアス検出手法であるLOGANを提案する。
毒性分類および対象分類タスクの実験は、LOGANが局所領域のバイアスを特定することを示している。
論文 参考訳(メタデータ) (2020-10-06T16:42:51Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。