論文の概要: Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT
- arxiv url: http://arxiv.org/abs/2504.07982v1
- Date: Fri, 04 Apr 2025 21:04:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-04-20 05:34:56.307103
- Title: Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT
- Title(参考訳): 大規模言語モデルにおけるフェアネス評価のためのメタモルフィックテスト:LLaMAとGPTにおける断面積バイアスの同定
- Authors: Harishwar Reddy, Madhusudan Srinivasan, Upulee Kanewala,
- Abstract要約: 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げてきたが、公平性に関連する問題に対して脆弱なままである。
本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
- 参考スコア(独自算出の注目度): 2.380039717474099
- License:
- Abstract: Large Language Models (LLMs) have made significant strides in Natural Language Processing but remain vulnerable to fairness-related issues, often reflecting biases inherent in their training data. These biases pose risks, particularly when LLMs are deployed in sensitive areas such as healthcare, finance, and law. This paper introduces a metamorphic testing approach to systematically identify fairness bugs in LLMs. We define and apply a set of fairness-oriented metamorphic relations (MRs) to assess the LLaMA and GPT model, a state-of-the-art LLM, across diverse demographic inputs. Our methodology includes generating source and follow-up test cases for each MR and analyzing model responses for fairness violations. The results demonstrate the effectiveness of MT in exposing bias patterns, especially in relation to tone and sentiment, and highlight specific intersections of sensitive attributes that frequently reveal fairness faults. This research improves fairness testing in LLMs, providing a structured approach to detect and mitigate biases and improve model robustness in fairness-sensitive applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げているが、公平性に関連する問題に弱いままであり、しばしばトレーニングデータに固有のバイアスを反映している。
これらのバイアスは、特にLLMが医療、金融、法律などの機密分野に配備されている場合、リスクを引き起こす。
本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
LLaMA と GPT モデル (最先端 LLM モデル) を多種多様な階層的入力で評価するために, フェアネス指向の変成関係 (MR) の集合を定義し, 適用する。
本手法は,各MRのソースおよびフォローアップテストケースの生成と,フェアネス違反に対するモデル応答の解析を含む。
以上の結果から,特にトーンと感情の関係において, MTがバイアスパターンの露出に有効であることを示すとともに, 公平性障害が頻繁に現れる感度特性の交叉を強調した。
本研究は,LLMの公平性テストを改善し,バイアスを検出し緩和し,公平性に敏感なアプリケーションにおけるモデルロバスト性を改善するための構造化アプローチを提供する。
関連論文リスト
- Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。
本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文 参考訳(メタデータ) (2025-02-03T17:13:03Z) - Bias in Large Language Models: Origin, Evaluation, and Mitigation [4.606140332500086]
大規模言語モデル(LLM)は自然言語処理に革命をもたらしたが、バイアスへの感受性は大きな課題となっている。
本総説では, LLMの発端から現在の緩和戦略まで, バイアスの背景を概観する。
偏りのあるLLMの倫理的および法的含意について論じ、医療や刑事司法のような現実の応用における潜在的な害を強調した。
論文 参考訳(メタデータ) (2024-11-16T23:54:53Z) - Beyond Binary: Towards Fine-Grained LLM-Generated Text Detection via Role Recognition and Involvement Measurement [51.601916604301685]
大規模言語モデル(LLM)は、オンライン談話における信頼を損なう可能性のあるコンテンツを生成する。
現在の手法はバイナリ分類に重点を置いており、人間とLLMのコラボレーションのような現実のシナリオの複雑さに対処できないことが多い。
バイナリ分類を超えてこれらの課題に対処するために,LLM生成コンテンツを検出するための新しいパラダイムを提案する。
論文 参考訳(メタデータ) (2024-10-18T08:14:10Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - Uncovering Biases with Reflective Large Language Models [2.5200794639628032]
人間のラベル付きデータのバイアスとエラーは、機械学習にとって重要な課題である。
本稿では,多種多様な視点を明らかにするために,構造化逆対話を利用した反射型LLM対話フレームワーク RLDF を提案する。
実験の結果、RDDFは人間のラベル付きデータの制限を露呈しながら、公開コンテンツの潜在的なバイアスを特定することに成功した。
論文 参考訳(メタデータ) (2024-08-24T04:48:32Z) - Fairness in Large Language Models in Three Hours [2.443957114877221]
このチュートリアルは、大規模言語モデルに関する文献の最近の進歩を体系的に概説する。
LLMにおける公平性の概念を考察し、バイアスを評価するための戦略と公正性を促進するために設計されたアルゴリズムを要約する。
論文 参考訳(メタデータ) (2024-08-02T03:44:14Z) - Interpreting Bias in Large Language Models: A Feature-Based Approach [0.0]
大規模言語モデル(LLM)は、様々な自然言語処理(NLP)タスクで顕著なパフォーマンスを示した。
本稿では, 特徴量に基づく新しい解析手法により, LLM内のバイアスの伝播について検討する。
論文 参考訳(メタデータ) (2024-06-18T07:28:15Z) - PoLLMgraph: Unraveling Hallucinations in Large Language Models via State Transition Dynamics [51.17512229589]
PoLLMgraphは、大規模言語モデルのためのモデルベースのホワイトボックス検出および予測手法である。
LLMの内部状態遷移ダイナミクスを解析することにより,幻覚を効果的に検出できることを示す。
我々の研究は、LLMのモデルベースのホワイトボックス分析の新しい手法を開拓し、LLMの振る舞いの複雑なダイナミクスをさらに探求し、理解し、洗練する研究コミュニティを動機付けている。
論文 参考訳(メタデータ) (2024-04-06T20:02:20Z) - Few-Shot Fairness: Unveiling LLM's Potential for Fairness-Aware
Classification [7.696798306913988]
フェアネス定義に適合するフェアネス規則を概説する枠組みを導入する。
本稿では,テキスト内学習のための構成と,RAGを用いてテキスト内デモを選択する手順について検討する。
異なるLCMを用いて行った実験では、GPT-4は他のモデルと比較して精度と公平性の両方において優れた結果をもたらすことが示された。
論文 参考訳(メタデータ) (2024-02-28T17:29:27Z) - Exploring the Jungle of Bias: Political Bias Attribution in Language Models via Dependency Analysis [86.49858739347412]
大規模言語モデル(LLM)は、これらのモデルにおけるバイアスの頻度とその緩和に関する激しい議論を引き起こしている。
本稿では,意思決定プロセスに寄与する属性の抽出と仲介を行うためのプロンプトベースの手法を提案する。
観察された異なる治療は、少なくとも部分的には、属性の相違とモデルの相違によるものであることが判明した。
論文 参考訳(メタデータ) (2023-11-15T00:02:25Z) - Bias and Fairness in Large Language Models: A Survey [73.87651986156006]
本稿では,大規模言語モデル(LLM)のバイアス評価と緩和手法に関する総合的な調査を行う。
まず、自然言語処理における社会的偏見と公平性の概念を統合し、形式化し、拡張する。
次に,3つの直感的な2つのバイアス評価法と1つの緩和法を提案し,文献を統一する。
論文 参考訳(メタデータ) (2023-09-02T00:32:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。