論文の概要: Assessing the Reliability of LLMs Annotations in the Context of Demographic Bias and Model Explanation
- arxiv url: http://arxiv.org/abs/2507.13138v1
- Date: Thu, 17 Jul 2025 14:00:13 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-18 20:10:24.527034
- Title: Assessing the Reliability of LLMs Annotations in the Context of Demographic Bias and Model Explanation
- Title(参考訳): デモグラフィックバイアスとモデル説明の文脈におけるLCMアノテーションの信頼性の評価
- Authors: Hadi Mohammadi, Tina Shahedi, Pablo Mosteiro, Massimo Poesio, Ayoub Bagheri, Anastasia Giachanou,
- Abstract要約: 本研究では,アノテータの人口統計学的特徴がテキストコンテンツと比較してラベル決定に与える影響について検討した。
一般化線形混合モデルを用いて、この差分率を定量化し、観測された分散のごく一部(8%)が人口統計因子であることを示した。
次に、ジェネレーティブAI(GenAI)モデルの信頼性をアノテータとして評価し、人口統計学的パーソナによる指導が人間の判断との整合性を改善するかどうかを具体的に評価する。
- 参考スコア(独自算出の注目度): 5.907945985868999
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Understanding the sources of variability in annotations is crucial for developing fair NLP systems, especially for tasks like sexism detection where demographic bias is a concern. This study investigates the extent to which annotator demographic features influence labeling decisions compared to text content. Using a Generalized Linear Mixed Model, we quantify this inf luence, finding that while statistically present, demographic factors account for a minor fraction ( 8%) of the observed variance, with tweet content being the dominant factor. We then assess the reliability of Generative AI (GenAI) models as annotators, specifically evaluating if guiding them with demographic personas improves alignment with human judgments. Our results indicate that simplistic persona prompting often fails to enhance, and sometimes degrades, performance compared to baseline models. Furthermore, explainable AI (XAI) techniques reveal that model predictions rely heavily on content-specific tokens related to sexism, rather than correlates of demographic characteristics. We argue that focusing on content-driven explanations and robust annotation protocols offers a more reliable path towards fairness than potentially persona simulation.
- Abstract(参考訳): アノテーションにおける多様性の源泉を理解することは、公正なNLPシステムの開発、特に人口統計バイアスが懸念される性差別の検出のようなタスクに不可欠である。
本研究では,アノテータの人口統計学的特徴がテキストコンテンツと比較してラベル決定に与える影響について検討した。
一般化線形混合モデルを用いて、この差分率を定量化し、統計的に存在するが、人口統計学的要因は、観測された分散のごく一部(8%)を占め、ツイート内容が支配的な要因であることを示した。
次に、ジェネレーティブAI(GenAI)モデルの信頼性をアノテータとして評価し、人口統計学的パーソナによる指導が人間の判断との整合性を改善するかどうかを具体的に評価する。
その結果,単純なペルソナのプロンプトは,ベースラインモデルに比べて向上せず,時として性能が低下することがわかった。
さらに、説明可能なAI(XAI)技術は、モデル予測が人口統計特性の相関よりも、性差別に関連するコンテンツ固有のトークンに大きく依存していることを明らかにする。
コンテンツ駆動型説明とロバストアノテーションプロトコルにフォーカスすることは、潜在的ペルソナシミュレーションよりも公正性への信頼性の高い道をもたらすと我々は主張する。
関連論文リスト
- Interpreting Social Bias in LVLMs via Information Flow Analysis and Multi-Round Dialogue Evaluation [1.7997395646080083]
大規模視覚言語モデル (LVLM) はマルチモーダルタスクにおいて顕著な進歩を遂げているが、社会的偏見も顕著である。
本稿では,情報フロー解析と多ラウンド対話評価を組み合わせた説明フレームワークを提案する。
実験により、LVLMは異なる人口集団の画像を処理する際に、情報利用の体系的な差異を示すことが明らかとなった。
論文 参考訳(メタデータ) (2025-05-27T12:28:44Z) - Biased Heritage: How Datasets Shape Models in Facial Expression Recognition [13.77824359359967]
画像に基づく表情認識システムにおいて,データセットから訓練されたモデルへのバイアス伝搬について検討する。
本稿では,複数の階層群を有する複数クラス問題に特化して設計された新しいバイアス指標を提案する。
その結果,FERデータセットの一般的な人口収支よりも,感情特異的な人口動態パターンの防止が優先されるべきであることが示唆された。
論文 参考訳(メタデータ) (2025-03-05T12:25:22Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Robustness and Confounders in the Demographic Alignment of LLMs with Human Perceptions of Offensiveness [10.194622474615462]
大規模言語モデル(LLM)は人口統計学的バイアスを示すことが知られているが、複数のデータセットにまたがってこれらのバイアスを体系的に評価する研究は少ない。
以上の結果から、人口統計学的特徴、特に人種、影響のアライメントはデータセット間で矛盾し、しばしば他の要因と絡み合っていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-13T19:08:23Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - Leveraging vision-language models for fair facial attribute classification [19.93324644519412]
汎用視覚言語モデル(英: General-purpose Vision-Language Model, VLM)は、共通感性属性のための豊富な知識源である。
我々は,VLM予測値と人間定義属性分布の対応関係を解析した。
複数のベンチマークの顔属性分類データセットの実験は、既存の教師なしベースラインよりもモデルの公平性の向上を示している。
論文 参考訳(メタデータ) (2024-03-15T18:37:15Z) - Learning for Counterfactual Fairness from Observational Data [62.43249746968616]
公正な機械学習は、人種、性別、年齢などの特定の保護された(感受性のある)属性によって記述されるある種のサブグループに対して、学習モデルのバイアスを取り除くことを目的としている。
カウンターファクトフェアネスを達成するための既存の手法の前提条件は、データに対する因果モデルの事前の人間の知識である。
本研究では,新しいフレームワークCLAIREを提案することにより,因果関係を付与せずに観測データから対実的に公正な予測を行う問題に対処する。
論文 参考訳(メタデータ) (2023-07-17T04:08:29Z) - Gender Biases in Automatic Evaluation Metrics for Image Captioning [87.15170977240643]
画像キャプションタスクのためのモデルに基づく評価指標において、性別バイアスの体系的研究を行う。
偏りのある世代と偏りのない世代を区別できないことを含む、これらの偏りのあるメトリクスを使用することによる負の結果を実証する。
人間の判断と相関を損なうことなく、測定バイアスを緩和する簡便で効果的な方法を提案する。
論文 参考訳(メタデータ) (2023-05-24T04:27:40Z) - D-BIAS: A Causality-Based Human-in-the-Loop System for Tackling
Algorithmic Bias [57.87117733071416]
D-BIASは、人間のループ内AIアプローチを具現化し、社会的バイアスを監査し軽減する視覚対話型ツールである。
ユーザは、因果ネットワークにおける不公平な因果関係を識別することにより、グループに対する偏見の存在を検出することができる。
それぞれのインタラクション、例えばバイアスのある因果縁の弱体化/削除は、新しい(偏りのある)データセットをシミュレートするために、新しい方法を用いている。
論文 参考訳(メタデータ) (2022-08-10T03:41:48Z) - Balancing out Bias: Achieving Fairness Through Training Reweighting [58.201275105195485]
自然言語処理におけるバイアスは、性別や人種などの著者の特徴を学習するモデルから生じる。
既存のバイアスの緩和と測定方法は、著者の人口統計学と言語変数の相関を直接考慮していない。
本稿では,インスタンス再重み付けを用いたバイアス対策法を提案する。
論文 参考訳(メタデータ) (2021-09-16T23:40:28Z) - Leveraging Community and Author Context to Explain the Performance and
Bias of Text-Based Deception Detection Models [6.428095289290804]
オンラインコミュニティで共有されている偽ニュースは、NLPモデルで検出することができる。
我々は,オンラインコミュニティの特徴と著者を用いて,ニューラルネットワークの騙し検出モデルの性能を説明する。
論文 参考訳(メタデータ) (2021-04-27T21:49:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。