論文の概要: HInter: Exposing Hidden Intersectional Bias in Large Language Models
- arxiv url: http://arxiv.org/abs/2503.11962v1
- Date: Sat, 15 Mar 2025 02:10:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-18 12:36:11.270303
- Title: HInter: Exposing Hidden Intersectional Bias in Large Language Models
- Title(参考訳): HInter:大規模言語モデルにおける隠れた断面積バイアスの抽出
- Authors: Badr Souani, Ezekiel Soremekun, Mike Papadakis, Setsuko Yokoyama, Sudipta Chattopadhyay, Yves Le Traon,
- Abstract要約: 大規模言語モデル(LLM)は、特定の個人に対する差別、特に複数の属性(交叉バイアス)によって特徴づけられるものを表現することができる。
LLMにおける交叉バイアスを自動的に検出するために,変異解析,依存性解析,およびオラクルを組み合わせたテスト手法であるHInterを提案する。
- 参考スコア(独自算出の注目度): 14.809000711078234
- License:
- Abstract: Large Language Models (LLMs) may portray discrimination towards certain individuals, especially those characterized by multiple attributes (aka intersectional bias). Discovering intersectional bias in LLMs is challenging, as it involves complex inputs on multiple attributes (e.g. race and gender). To address this challenge, we propose HInter, a test technique that synergistically combines mutation analysis, dependency parsing and metamorphic oracles to automatically detect intersectional bias in LLMs. HInter generates test inputs by systematically mutating sentences using multiple mutations, validates inputs via a dependency invariant and detects biases by checking the LLM response on the original and mutated sentences. We evaluate HInter using six LLM architectures and 18 LLM models (GPT3.5, Llama2, BERT, etc) and find that 14.61% of the inputs generated by HInter expose intersectional bias. Results also show that our dependency invariant reduces false positives (incorrect test inputs) by an order of magnitude. Finally, we observed that 16.62% of intersectional bias errors are hidden, meaning that their corresponding atomic cases do not trigger biases. Overall, this work emphasize the importance of testing LLMs for intersectional bias.
- Abstract(参考訳): 大規模言語モデル(LLM)は、特定の個人、特に複数の属性(つまり交叉バイアス)を特徴とする個人に対する差別を表現することができる。
LLMにおける交叉バイアスの発見は、複数の属性(例えば人種や性別)に関する複雑な入力を含むため、困難である。
この課題に対処するため,LLMの交叉バイアスを自動的に検出するために,変異解析,依存性解析,変成オラクルを相乗的に組み合わせたテスト手法であるHInterを提案する。
HInterは、複数の突然変異を用いて文を体系的に変異させてテスト入力を生成し、依存不変量を介して入力を検証し、元の文と変異した文のLSM応答をチェックしてバイアスを検出する。
我々は、6つのLLMアーキテクチャと18のLLMモデル(GPT3.5, Llama2, BERTなど)を用いてHInterを評価し、HInterによって生成された入力の14.61%が交差バイアスを露呈することを示した。
結果、我々の依存性不変性は偽陽性(不正なテスト入力)を桁違いに減少させることを示した。
最後に、交差バイアスの16.62%が隠れており、対応する原子のケースがバイアスを起こさないことが観察された。
全体として、この研究は交差バイアスに対するLSMのテストの重要性を強調している。
関連論文リスト
- Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Large Language Models Still Exhibit Bias in Long Text [14.338308312117901]
大規模言語モデルにおけるバイアスを評価するフレームワークであるLong Text Fairness Test (LTF-TEST)を紹介する。
LTF-TESTはモデル応答とそれらの背後にある推論の両方を評価することで、単純な応答では検出が難しい微妙なバイアスを明らかにする。
FT-REGARD(FT-REGARD)を提案する。
論文 参考訳(メタデータ) (2024-10-23T02:51:33Z) - Towards Implicit Bias Detection and Mitigation in Multi-Agent LLM Interactions [25.809599403713506]
大規模言語モデル(LLM)は、社会をシミュレートし、多様な社会的タスクを実行するために、多くの研究で採用されている。
LLMは、人為的なデータに曝されるため、社会的偏見に影響を受けやすい。
本研究では,多エージェントLDM相互作用における性バイアスの存在について検討し,これらのバイアスを軽減するための2つの方法を提案する。
論文 参考訳(メタデータ) (2024-10-03T15:28:05Z) - Unboxing Occupational Bias: Grounded Debiasing of LLMs with U.S. Labor Data [9.90951705988724]
大規模言語モデル(LLM)は、社会的バイアスを継承し増幅する傾向がある。
LLMバイアスは、不公平な慣行をもたらし、社会的不平等を悪化させる。
論文 参考訳(メタデータ) (2024-08-20T23:54:26Z) - Probability of Differentiation Reveals Brittleness of Homogeneity Bias in GPT-4 [0.0]
LLM(Large Language Models)における均一性バイアス(英語版)とは、ある集団の表現を他と比較して均質化する傾向を指す。
このバイアスを文書化する以前の研究は、主にエンコーダモデルを使用しており、それは必然的にバイアスを導入した可能性がある。
本研究は、エンコーダモデルをバイパスして、モデル出力から均一性バイアスを直接評価する。
論文 参考訳(メタデータ) (2024-07-10T02:56:55Z) - Hallucination Detection: Robustly Discerning Reliable Answers in Large Language Models [70.19081534515371]
大規模言語モデル(LLM)は様々な自然言語処理タスクで広く採用されている。
それらは、入力源から逸脱する不信または矛盾したコンテンツを生成し、深刻な結果をもたらす。
本稿では,LLMの生成した回答の幻覚を効果的に検出するために,RelDという頑健な識別器を提案する。
論文 参考訳(メタデータ) (2024-07-04T18:47:42Z) - From Distributional to Overton Pluralism: Investigating Large Language Model Alignment [82.99849359892112]
適応後の応答多様性の低下を以前報告した再検査を行った。
分析の結果,応答の多様性の明らかな低下は,品質管理と情報集約によって大きく説明できることがわかった。
発見は、現在のアライメント技術はキャプチャーされるが、アシスタントライクなベースLLM動作の有用なサブセットを拡張するものではないことを示している。
論文 参考訳(メタデータ) (2024-06-25T16:32:33Z) - "Knowing When You Don't Know": A Multilingual Relevance Assessment Dataset for Robust Retrieval-Augmented Generation [90.09260023184932]
Retrieval-Augmented Generation (RAG) は、外部の知識源を活用して、事実の幻覚を減らすことで、Large Language Model (LLM) を出力する。
NoMIRACLは18言語にまたがるRAGにおけるLDM堅牢性を評価するための人為的アノテーション付きデータセットである。
本研究は,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Halucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sorucination rate</i>,<i>Sr。
論文 参考訳(メタデータ) (2023-12-18T17:18:04Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Learning from Red Teaming: Gender Bias Provocation and Mitigation in
Large Language Models [43.44112117935541]
大型言語モデル(LLM)は潜在的なバイアスを符号化し、相互作用中に人間を傷つける相違を保持する。
LLMの潜在的な性別バイアスを検出するテストケースを自動生成するファースト・オブ・イズ・キンド法を提案する。
特定されたバイアスに対処するため,本研究では,生成したテストケースを文脈内学習の実証として利用する緩和戦略を提案する。
論文 参考訳(メタデータ) (2023-10-17T08:56:04Z) - Large Language Models Are Not Robust Multiple Choice Selectors [117.72712117510953]
複数選択質問(MCQ)は、大規模言語モデル(LLM)の評価において、一般的なが重要なタスク形式として機能する。
この研究は、現代のLLMが、その固有の「選択バイアス」によるオプション位置変化に対して脆弱であることを示している。
そこで本研究では,オプションIDに対する事前バイアスを全体予測分布から分離するPriDeという,ラベルのない推論時間脱バイアス手法を提案する。
論文 参考訳(メタデータ) (2023-09-07T17:44:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。