論文の概要: Audit Me If You Can: Query-Efficient Active Fairness Auditing of Black-Box LLMs
- arxiv url: http://arxiv.org/abs/2601.03087v1
- Date: Tue, 06 Jan 2026 15:22:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-07 17:02:12.986911
- Title: Audit Me If You Can: Query-Efficient Active Fairness Auditing of Black-Box LLMs
- Title(参考訳): Black-Box LLMのクエリ効率の良いアクティブフェアネス監査
- Authors: David Hartmann, Lena Pohlmann, Lelia Hanslik, Noah Gießing, Bettina Berendt, Pieter Delobelle,
- Abstract要約: 大規模言語モデル(LLM)は、人口統計群にまたがる体系的なバイアスを示す。
対象の公正度測定値に対する不確実性評価として監査を概念化する。
ブラックボックスLLMのクエリ効率監査のためのバウンドアクティブフェアネスオーディタであるBAFAを紹介する。
- 参考スコア(独自算出の注目度): 4.673176641454931
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) exhibit systematic biases across demographic groups. Auditing is proposed as an accountability tool for black-box LLM applications, but suffers from resource-intensive query access. We conceptualise auditing as uncertainty estimation over a target fairness metric and introduce BAFA, the Bounded Active Fairness Auditor for query-efficient auditing of black-box LLMs. BAFA maintains a version space of surrogate models consistent with queried scores and computes uncertainty intervals for fairness metrics (e.g., $Δ$ AUC) via constrained empirical risk minimisation. Active query selection narrows these intervals to reduce estimation error. We evaluate BAFA on two standard fairness dataset case studies: \textsc{CivilComments} and \textsc{Bias-in-Bios}, comparing against stratified sampling, power sampling, and ablations. BAFA achieves target error thresholds with up to 40$\times$ fewer queries than stratified sampling (e.g., 144 vs 5,956 queries at $\varepsilon=0.02$ for \textsc{CivilComments}) for tight thresholds, demonstrates substantially better performance over time, and shows lower variance across runs. These results suggest that active sampling can reduce resources needed for independent fairness auditing with LLMs, supporting continuous model evaluations.
- Abstract(参考訳): 大規模言語モデル(LLM)は、人口統計群にまたがる体系的なバイアスを示す。
監査はブラックボックスLLMアプリケーションの説明責任ツールとして提案されているが、リソース集約的なクエリアクセスに悩まされている。
我々は、対象の公正度測定値に対する不確実性評価として監査を概念化し、ブラックボックスLLMのクエリ効率監査のためのバウンドアクティブフェアネス監査器であるBAFAを導入する。
BAFAは、クエリされたスコアと整合したサロゲートモデルのバージョン空間を維持し、制約付き経験的リスク最小化を通じて、フェアネス指標(例えば$Δ$AUC)の不確かさ間隔を計算する。
アクティブクエリの選択は、これらの間隔を狭め、推定エラーを減らす。
BAFAを2つの標準フェアネスデータセットのケーススタディとして評価した: \textsc{CivilComments} と \textsc{Bias-in-Bios} である。
BAFAは、厳密なしきい値に対して、40$\times$のクエリを成層サンプリングよりも少なくする(例えば、$\varepsilon=0.02$ for \textsc{CivilComments})。
これらの結果から, アクティブサンプリングは, LLMによる独立公正監査に必要な資源を削減し, 連続モデル評価を支援することが示唆された。
関連論文リスト
- Flipping Against All Odds: Reducing LLM Coin Flip Bias via Verbalized Rejection Sampling [59.133428586090226]
大規模言語モデル(LLM)は、しばしば自然言語を用いて確率分布を正確に記述することができる。
このミスマッチはモンテカルロ法、エージェントベースのシミュレーション、ランダム化された意思決定などの信頼性を必要とするタスクでの使用を制限する。
本稿では,古典的リジェクションサンプリングの自然言語適応であるVerbalized Rejection Smpling (VRS)を紹介する。
論文 参考訳(メタデータ) (2025-06-11T17:59:58Z) - Supervised Optimism Correction: Be Confident When LLMs Are Sure [91.7459076316849]
教師付き微調整とオフライン強化学習の間には,新たな理論的関係が確立されている。
広く使われているビームサーチ法は、許容できない過度な最適化に悩まされていることを示す。
本稿では,トークンレベル$Q$-value推定のための簡易かつ効果的な補助的損失を導入したSupervised Optimism Correctionを提案する。
論文 参考訳(メタデータ) (2025-04-10T07:50:03Z) - Are You Getting What You Pay For? Auditing Model Substitution in LLM APIs [71.7892165868749]
LLM(Commercial Large Language Model) APIは基本的な信頼の問題を生み出します。
ユーザーは特定のモデルに課金するが、プロバイダが忠実に提供できることを保証することはない。
我々は,このモデル置換問題を定式化し,現実的な逆条件下での検出方法を評価する。
我々は,信頼された実行環境(TEE)を実用的で堅牢なソリューションとして使用し,評価する。
論文 参考訳(メタデータ) (2025-04-07T03:57:41Z) - LLM-Assisted Relevance Assessments: When Should We Ask LLMs for Help? [20.998805709422292]
テストコレクションは、研究者が素早く簡単にランキングアルゴリズムを評価することができる情報検索ツールである。
より安価な代替手段として、近年の研究では、人間のアセスメントを完全に置き換えるために大きな言語モデル(LLM)が提案されている。
LARAは、手動アノテーションとLLMアノテーションのバランスをとる効果的な方法であり、低予算でもリッチで信頼性の高いテストコレクションを構築するのに役立つ。
論文 参考訳(メタデータ) (2024-11-11T11:17:35Z) - Provenance: A Light-weight Fact-checker for Retrieval Augmented LLM Generation Output [49.893971654861424]
検索強化生成(RAG)から非実効出力を検出する軽量な手法を提案する。
私たちは、二項決定を下すためにしきい値にできる事実性スコアを計算します。
実験の結果, ROC曲線 (AUC) の下では, 関連するオープンソースデータセットの広範囲にわたって高い面積を示すことができた。
論文 参考訳(メタデータ) (2024-11-01T20:44:59Z) - Unlocking the Power of LLM Uncertainty for Active In-Context Example Selection [6.813733517894384]
Uncertainty Tripartite Testing Paradigm (Unc-TTP)は、LLM(Large Language Models)を分類する新しい手法である。
Unc-TTPは、異なるラベル注入干渉下で3ラウンドのサンプリングを行い、全ての可能な結果を列挙する。
本実験は,Unc-TTPを用いて選択した不確実性例が確実性例よりも有益であることを示す。
論文 参考訳(メタデータ) (2024-08-17T11:33:23Z) - Can Many-Shot In-Context Learning Help LLMs as Evaluators? A Preliminary Empirical Study [19.461541208547136]
本稿では,文脈内サンプル数の増加が評価結果の一貫性と品質に及ぼす影響について検討する。
GPT-4oのような先進LLMは、ゼロショットや少数ショットのレギュレーションよりも多ショットのレギュレーションにおいて優れた性能を示すことを示す実験結果が得られた。
論文 参考訳(メタデータ) (2024-06-17T15:11:58Z) - Let's Sample Step by Step: Adaptive-Consistency for Efficient Reasoning
and Coding with LLMs [60.58434523646137]
大規模言語モデル(LLM)からの出力の正確性を改善するための一般的なアプローチは、自己整合性である。
コスト効率のよいモデルに依存しない手法であるAdaptive-Consistencyを導入し,各質問のサンプル数を動的に調整する。
実験の結果,Adaptive-Consistencyはサンプル予算を最大7.9倍に削減し,平均精度は0.1%以下であった。
論文 参考訳(メタデータ) (2023-05-19T17:49:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。