論文の概要: Toward Systematic Counterfactual Fairness Evaluation of Large Language Models: The CAFFE Framework
- arxiv url: http://arxiv.org/abs/2512.16816v1
- Date: Thu, 18 Dec 2025 17:56:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-19 18:10:32.190272
- Title: Toward Systematic Counterfactual Fairness Evaluation of Large Language Models: The CAFFE Framework
- Title(参考訳): 大規模言語モデルの体系的対実的公正性評価に向けて: CAFFEフレームワーク
- Authors: Alessandra Parziale, Gianmario Voria, Valeria Pontillo, Gemma Catolino, Andrea De Lucia, Fabio Palomba,
- Abstract要約: CAFFEは、大規模言語モデルにおける反ファクトフェアネスをテストするための構造化および意図対応フレームワークである。
従来の非機能テストにインスパイアされたCAFFEは、明示的に定義されたコンポーネントを通じてLLM-Fairnessテストケースを形式化する。
- 参考スコア(独自算出の注目度): 45.94124349318318
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Nowadays, Large Language Models (LLMs) are foundational components of modern software systems. As their influence grows, concerns about fairness have become increasingly pressing. Prior work has proposed metamorphic testing to detect fairness issues, applying input transformations to uncover inconsistencies in model behavior. This paper introduces an alternative perspective for testing counterfactual fairness in LLMs, proposing a structured and intent-aware framework coined CAFFE (Counterfactual Assessment Framework for Fairness Evaluation). Inspired by traditional non-functional testing, CAFFE (1) formalizes LLM-Fairness test cases through explicitly defined components, including prompt intent, conversational context, input variants, expected fairness thresholds, and test environment configuration, (2) assists testers by automatically generating targeted test data, and (3) evaluates model responses using semantic similarity metrics. Our experiments, conducted on three different architectural families of LLM, demonstrate that CAFFE achieves broader bias coverage and more reliable detection of unfair behavior than existing metamorphic approaches.
- Abstract(参考訳): 現在、LLM(Large Language Models)は、現代のソフトウェアシステムの基盤となるコンポーネントである。
彼らの影響力が増すにつれて、公平性に対する懸念がますます強まりつつある。
先行研究では、フェアネス問題を検出するための変成テストを提案し、入力変換を適用してモデル行動の不整合を明らかにする。
本稿では,CAFFE(Counterfactual Assessment Framework for Fairness Evaluation)と呼ばれる構造化および意図認識フレームワークを提案する。
従来の非機能テストにインスパイアされたCAFFE(1)は、プロンプトインテント、会話コンテキスト、入力変数、期待フェアネスしきい値、テスト環境設定など、明示的に定義されたコンポーネントを通じてLCM-Fairnessテストケースを形式化し、(2)ターゲットとするテストデータを自動的に生成し、(3)意味的類似度メトリクスを使用してモデル応答を評価する。
LLMの3つの異なるアーキテクチャファミリで実施した実験は, CAFFEが既存の変成的アプローチよりも広範なバイアスカバレッジと信頼性の高い不公平な行動の検出を達成できることを実証した。
関連論文リスト
- Reference-Specific Unlearning Metrics Can Hide the Truth: A Reality Check [60.77691669644931]
本研究では,非学習モデルと参照モデル間の分布類似度を測定する新しい尺度であるFADE(Functional Alignment for Distributional Equivalence)を提案する。
FADEは出力分布全体の機能的アライメントをキャプチャし、真の未学習の原則的評価を提供する。
これらの知見は、現在の評価実践における根本的なギャップを明らかにし、FADEが真に効果的な未学習手法を開発し評価するための、より堅牢な基盤を提供することを示した。
論文 参考訳(メタデータ) (2025-10-14T20:50:30Z) - Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective [24.54292750583169]
大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiSCo(Fine-fine Semantic Comparison)を提案する。
モデル出力を意味的に異なるクレームに分解し、グループ間およびグループ間の類似性を比較するために統計的仮説テストを適用する。
論文 参考訳(メタデータ) (2025-06-23T18:31:22Z) - Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT [2.380039717474099]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げてきたが、公平性に関連する問題に対して脆弱なままである。
本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
論文 参考訳(メタデータ) (2025-04-04T21:04:14Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Evaluating Generative Language Models in Information Extraction as Subjective Question Correction [49.729908337372436]
本稿では,新しい評価手法SQC-Scoreを提案する。
主観的質問訂正の原則に着想を得て,新しい評価手法SQC-Scoreを提案する。
3つの情報抽出タスクの結果から,SQC-Scoreは基準値よりもアノテータの方が好ましいことが示された。
論文 参考訳(メタデータ) (2024-04-04T15:36:53Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。