論文の概要: Meta-Fair: AI-Assisted Fairness Testing of Large Language Models
- arxiv url: http://arxiv.org/abs/2507.02533v1
- Date: Thu, 03 Jul 2025 11:20:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-04 15:37:16.178924
- Title: Meta-Fair: AI-Assisted Fairness Testing of Large Language Models
- Title(参考訳): Meta-Fair: 大規模言語モデルのAI支援フェアネステスト
- Authors: Miguel Romero-Arjona, José A. Parejo, Juan C. Alonso, Ana B. Sánchez, Aitor Arrieta, Sergio Segura,
- Abstract要約: 公正さは人工知能(AI)システムの開発における中核的な原則である。
大規模言語モデル(LLM)におけるフェアネステストへの現在のアプローチは、手動評価、固定テンプレート、決定論、キュレートされたデータセットに依存していることが多い。
本研究は,LLMの公正性をテストするための,新しい自動化手法の基盤となることを目的としている。
- 参考スコア(独自算出の注目度): 2.9632404823837777
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Fairness--the absence of unjustified bias--is a core principle in the development of Artificial Intelligence (AI) systems, yet it remains difficult to assess and enforce. Current approaches to fairness testing in large language models (LLMs) often rely on manual evaluation, fixed templates, deterministic heuristics, and curated datasets, making them resource-intensive and difficult to scale. This work aims to lay the groundwork for a novel, automated method for testing fairness in LLMs, reducing the dependence on domain-specific resources and broadening the applicability of current approaches. Our approach, Meta-Fair, is based on two key ideas. First, we adopt metamorphic testing to uncover bias by examining how model outputs vary in response to controlled modifications of input prompts, defined by metamorphic relations (MRs). Second, we propose exploiting the potential of LLMs for both test case generation and output evaluation, leveraging their capability to generate diverse inputs and classify outputs effectively. The proposal is complemented by three open-source tools supporting LLM-driven generation, execution, and evaluation of test cases. We report the findings of several experiments involving 12 pre-trained LLMs, 14 MRs, 5 bias dimensions, and 7.9K automatically generated test cases. The results show that Meta-Fair is effective in uncovering bias in LLMs, achieving an average precision of 92% and revealing biased behaviour in 29% of executions. Additionally, LLMs prove to be reliable and consistent evaluators, with the best-performing models achieving F1-scores of up to 0.79. Although non-determinism affects consistency, these effects can be mitigated through careful MR design. While challenges remain to ensure broader applicability, the results indicate a promising path towards an unprecedented level of automation in LLM testing.
- Abstract(参考訳): 公正さ — 不正バイアスがない — は、人工知能(AI)システムの開発における中核的な原則である。
大規模言語モデル(LLM)におけるフェアネステストへの現在のアプローチは、しばしば手作業による評価、固定テンプレート、決定論的ヒューリスティックス、キュレートされたデータセットに依存しており、リソース集約的でスケールが難しい。
本研究の目的は、LLMの公正性をテストするための新しい自動化手法の基礎を築き、ドメイン固有のリソースへの依存を減らし、現在のアプローチの適用性を広げることである。
私たちのアプローチであるMeta-Fairは2つの重要なアイデアに基づいています。
まず、メタモルフィック関係(MR)によって定義される入力プロンプトの制御された変更に応じてモデル出力がどのように変化するかを調べることにより、バイアスを明らかにするためにメタモルフィックテストを採用する。
第2に,テストケース生成と出力評価の両方にLLMの可能性を活用して,多種多様な入力を生成し,出力を効果的に分類する能力を活用することを提案する。
この提案は、LLM駆動によるテストケースの生成、実行、評価をサポートする3つのオープンソースツールによって補完されている。
予備訓練12例, MR14例, バイアス次元5例, 自動生成7.9K例を含むいくつかの実験結果について報告する。
その結果,Meta-Fair は LLM のバイアスを明らかにするのに有効であり,平均精度は 92% であり,実行中の29% に偏りが認められた。
加えて、LCMは信頼性と一貫性のある評価器であることが証明され、最高の性能のモデルは最大0.79のF1スコアを達成した。
非決定論は一貫性に影響を与えるが、これらの効果は慎重にMR設計することで緩和することができる。
より大きな適用性を確保するための課題は残るが、その結果は、LLMテストにおける前例のないレベルの自動化に向けての、有望な道のりを示している。
関連論文リスト
- Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Improving Fairness in LLMs Through Testing-Time Adversaries [1.7811840395202343]
大規模言語モデル(LLM)は自然言語処理と生成AIのバウンダリをプッシュする。
本研究では,このようなバイアスを軽減するための,単純でユーザフレンドリで実践的な手法を提案する。
本手法は,特定の属性を修正し,対応する予測行動を評価することによって,与えられた文の複数のバリエーションを生成する。
論文 参考訳(メタデータ) (2025-05-17T17:56:53Z) - Everything You Wanted to Know About LLM-based Vulnerability Detection But Were Afraid to Ask [30.819697001992154]
大規模言語モデルは、自動脆弱性検出のための有望なツールである。
LLMは現実世界の脆弱性を検出するのに本当に効果的か?
本稿では, LLM は (i) 信頼できないこと, (ii) コードパッチに敏感であること, (iii) モデルスケールにまたがる性能評価の3つを, 広く支持されているコミュニティの信念に異議を唱える。
論文 参考訳(メタデータ) (2025-04-18T05:32:47Z) - Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT [2.380039717474099]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げてきたが、公平性に関連する問題に対して脆弱なままである。
本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
論文 参考訳(メタデータ) (2025-04-04T21:04:14Z) - LLMs are Biased Evaluators But Not Biased for Retrieval Augmented Generation [28.61326111959728]
大規模言語モデル(LLM)は評価タスク、特に優先的に評価し、自己生成したコンテンツを好む場合に重大なバイアスを示す。
本研究では,この知識ギャップを,検索強化世代(RAG)フレームワークの2つの重要なフェーズをシミュレートすることによって解決する。
以上の結果とは対照的に,RAGフレームワークに有意な自己選好効果は認められなかった。
論文 参考訳(メタデータ) (2024-10-28T08:32:09Z) - Justice or Prejudice? Quantifying Biases in LLM-as-a-Judge [84.34545223897578]
多くの領域で優れているにもかかわらず、潜在的な問題は未解決のままであり、その信頼性と実用性の範囲を損なう。
提案手法は, LLM-as-a-Judgeにおける各種類のバイアスを定量化し, 解析する自動バイアス定量化フレームワークである。
当社の作業は、これらの問題に対処するステークホルダの必要性を強調し、LLM-as-a-Judgeアプリケーションで注意を喚起します。
論文 参考訳(メタデータ) (2024-10-03T17:53:30Z) - MR-Ben: A Meta-Reasoning Benchmark for Evaluating System-2 Thinking in LLMs [55.20845457594977]
大規模言語モデル(LLM)は、問題解決と意思決定の能力の向上を示している。
本稿ではメタ推論技術を必要とするプロセスベースのベンチマークMR-Benを提案する。
メタ推論のパラダイムは,システム2のスロー思考に特に適しています。
論文 参考訳(メタデータ) (2024-06-20T03:50:23Z) - Uncertainty Aware Learning for Language Model Alignment [97.36361196793929]
異なるタスクシナリオのモデルアライメントを改善するために,不確実性認識学習(UAL)を提案する。
トレーニングのラベルの平滑化値を個々のサンプルの不確実性に応じて適応的に設定する。
広く使われているベンチマーク実験では、我々のUALは標準教師あり微調整よりも著しく優れています。
論文 参考訳(メタデータ) (2024-06-07T11:37:45Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Self-Evaluation Improves Selective Generation in Large Language Models [54.003992911447696]
オープンエンド生成タスクをトークンレベルの予測タスクに再構成する。
我々はLSMに答えを自己評価するように指示する。
自己評価に基づくスコアリング手法をベンチマークする。
論文 参考訳(メタデータ) (2023-12-14T19:09:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。