論文の概要: Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective
- arxiv url: http://arxiv.org/abs/2506.19028v1
- Date: Mon, 23 Jun 2025 18:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-25 19:48:23.342966
- Title: Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective
- Title(参考訳): LLMにおけるトークン以外のフェアネスの定量化--意味論的・統計的視点から
- Authors: Weijie Xu, Yiwen Wang, Chi Xue, Xiangkun Hu, Xi Fang, Guimin Dong, Chandan K. Reddy,
- Abstract要約: 大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
既存の評価手法は、LLM出力の長文応答におけるバイアスと本質的変動をしばしば見落としている。
人口集団間での長文応答の微妙な意味的差異を検知し,LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiScoを提案する。
- 参考スコア(独自算出の注目度): 13.739343897204568
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) often generate responses with inherent biases, undermining their reliability in real-world applications. Existing evaluation methods often overlook biases in long-form responses and the intrinsic variability of LLM outputs. To address these challenges, we propose FiSCo(Fine-grained Semantic Computation), a novel statistical framework to evaluate group-level fairness in LLMs by detecting subtle semantic differences in long-form responses across demographic groups. Unlike prior work focusing on sentiment or token-level comparisons, FiSCo goes beyond surface-level analysis by operating at the claim level, leveraging entailment checks to assess the consistency of meaning across responses. We decompose model outputs into semantically distinct claims and apply statistical hypothesis testing to compare inter- and intra-group similarities, enabling robust detection of subtle biases. We formalize a new group counterfactual fairness definition and validate FiSCo on both synthetic and human-annotated datasets spanning gender, race, and age. Experiments show that FiSco more reliably identifies nuanced biases while reducing the impact of stochastic LLM variability, outperforming various evaluation metrics.
- Abstract(参考訳): 大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
既存の評価手法は、LLM出力の長文応答におけるバイアスと本質的変動をしばしば見落としている。
これらの課題に対処するために、人口統計群間での長文応答の微妙な意味的差異を検知し、LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークFiSCo(Fine-fine Semantic Computation)を提案する。
感情やトークンレベルの比較に重点を置く以前の作業とは異なり、FiSCoはクレームレベルで操作することで表面レベルの分析を超えて、応答間の意味の一貫性を評価するために詳細なチェックを活用している。
モデル出力を意味的に異なるクレームに分解し、統計的仮説テストを適用してグループ間およびグループ間類似性を比較し、微妙なバイアスの堅牢な検出を可能にする。
我々は、性別、人種、年齢にまたがる合成と人称のデータセットで、新しいグループ対実公正の定義を定式化し、FiSCoを検証した。
実験により、FiScoは、確率的LLM変動の影響を低減し、様々な評価指標よりも確実にニュアンスバイアスを識別できることが示されている。
関連論文リスト
- When Meaning Stays the Same, but Models Drift: Evaluating Quality of Service under Token-Level Behavioral Instability in LLMs [4.265831047857601]
本研究では,大規模言語モデルがトークンレベルでの認識のみが異なるが,同じ意味的意図を保持するプロンプトにどのように反応するかを検討する。
本稿では,意味論的に等価なプロンプトリワードの下でのLCMの挙動ドリフトを測定するための診断フレームワークであるPmpt-based Semantic Shift (PBSS)を提案する。
論文 参考訳(メタデータ) (2025-06-11T18:26:32Z) - Statistical Hypothesis Testing for Auditing Robustness in Language Models [49.1574468325115]
本稿では,摂動解析を頻繁な仮説テスト問題として再検討するフレームワークである分布に基づく摂動解析を紹介する。
モンテカルロサンプリングを用いて低次元意味的類似性空間内に経験的ヌルおよび代替出力分布を構築する。
反応変化の定量化、正/偽の正率の測定、参照モデルとの整合性の評価について述べる。
論文 参考訳(メタデータ) (2025-06-09T17:11:07Z) - Relative Bias: A Comparative Framework for Quantifying Bias in LLMs [29.112649816695203]
相対バイアス(Relative Bias)は、LLMの振る舞いが特定のターゲットドメイン内の他のLLMとどのようにずれているかを評価するために設計された手法である。
本稿では,(1)埋め込み空間上の文表現を通して相対的バイアスパターンをキャプチャする埋め込み変換解析と,(2)言語モデルを用いて出力を相対的に評価するLLM-as-a-Judgeという2つの相補的手法を紹介する。
検証のための統計的テストに続くバイアスとアライメントのシナリオに関するいくつかのケーススタディに我々のフレームワークを適用し、この2つのスコアリング手法の間に強い整合性を見出した。
論文 参考訳(メタデータ) (2025-05-22T01:59:54Z) - Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT [2.380039717474099]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げてきたが、公平性に関連する問題に対して脆弱なままである。
本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
論文 参考訳(メタデータ) (2025-04-04T21:04:14Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Beyond the Singular: The Essential Role of Multiple Generations in Effective Benchmark Evaluation and Analysis [10.133537818749291]
大規模言語モデル(LLM)は、現実世界のアプリケーションにおいて重要なユーティリティを実証している。
LLMの能力を評価するにはベンチマーク評価が不可欠である。
論文 参考訳(メタデータ) (2025-02-13T03:43:33Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - VALOR-EVAL: Holistic Coverage and Faithfulness Evaluation of Large Vision-Language Models [57.43276586087863]
LVLM(Large Vision-Language Models)は幻覚に悩まされ、このモデルでは可聴音を発生させるが、実際には誤出力を発生させる。
既存のベンチマークはスコープに限られており、主にオブジェクト幻覚に焦点を当てている。
対象,属性,関係を多次元のベンチマークで表現し,連想バイアスに基づいて画像を選択する。
論文 参考訳(メタデータ) (2024-04-22T04:49:22Z) - FactCHD: Benchmarking Fact-Conflicting Hallucination Detection [64.4610684475899]
FactCHD は LLM からファクトコンフリクトの幻覚を検出するために設計されたベンチマークである。
FactCHDは、バニラ、マルチホップ、比較、セット操作など、さまざまな事実パターンにまたがる多様なデータセットを備えている。
Llama2 に基づくツール強化 ChatGPT と LoRA-tuning による反射的考察を合成する Truth-Triangulator を提案する。
論文 参考訳(メタデータ) (2023-10-18T16:27:49Z) - A comprehensive comparative evaluation and analysis of Distributional
Semantic Models [61.41800660636555]
我々は、静的DSMによって生成されたり、BERTによって生成された文脈化されたベクトルを平均化して得られるような、型分布ベクトルの包括的評価を行う。
その結果、予測ベースモデルの優越性は現実よりも明らかであり、ユビキタスではないことが明らかとなった。
我々は認知神経科学からRepresentational similarity Analysis(RSA)の方法論を借りて、分布モデルによって生成された意味空間を検査する。
論文 参考訳(メタデータ) (2021-05-20T15:18:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。