論文の概要: When to Invoke: Refining LLM Fairness with Toxicity Assessment
- arxiv url: http://arxiv.org/abs/2601.09250v1
- Date: Wed, 14 Jan 2026 07:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.314135
- Title: When to Invoke: Refining LLM Fairness with Toxicity Assessment
- Title(参考訳): いつ起動するか - 毒性評価によるLCMフェアネスの精錬
- Authors: Jing Ren, Bowen Li, Ziqi Xu, Renqiang Luo, Shuo Yu, Xin Ye, Haytham Fayek, Xiaodong Li, Feng Xia,
- Abstract要約: 大規模言語モデル(LLM)は、オンラインモデレーションシステムにおける毒性評価にますます利用されている。
本研究では, 早期誘導毒性評価によりLCMの公平性を高める推論時フレームワークであるFairToTを提案する。
ベンチマークデータセットの実験では、FairToTは安定的で信頼性の高い毒性予測を維持しながら、グループレベルの格差を低減する。
- 参考スコア(独自算出の注目度): 16.84048602922096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used for toxicity assessment in online moderation systems, where fairness across demographic groups is essential for equitable treatment. However, LLMs often produce inconsistent toxicity judgements for subtle expressions, particularly those involving implicit hate speech, revealing underlying biases that are difficult to correct through standard training. This raises a key question that existing approaches often overlook: when should corrective mechanisms be invoked to ensure fair and reliable assessments? To address this, we propose FairToT, an inference-time framework that enhances LLM fairness through prompt-guided toxicity assessment. FairToT identifies cases where demographic-related variation is likely to occur and determines when additional assessment should be applied. In addition, we introduce two interpretable fairness indicators that detect such cases and improve inference consistency without modifying model parameters. Experiments on benchmark datasets show that FairToT reduces group-level disparities while maintaining stable and reliable toxicity predictions, demonstrating that inference-time refinement offers an effective and practical approach for fairness improvement in LLM-based toxicity assessment systems. The source code can be found at https://aisuko.github.io/fair-tot/.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、オンラインモデレーションシステムにおいて、公平な治療に人口集団間の公平性が不可欠であるような毒性評価にますます用いられる。
しかし、LSMは微妙な表現、特に暗黙のヘイトスピーチに関わるものに対して矛盾する毒性判定をしばしば生み出す。
これは、既存のアプローチがしばしば見落としている重要な疑問を提起する。 公正で信頼性の高い評価を保証するために、いつ修正メカニズムを呼び出すべきか?
そこで本研究では,早急誘導毒性評価によりLCMの公平性を高める推論時フレームワークであるFairToTを提案する。
FairToTは、人口統計関連の変動が発生する可能性のあるケースを特定し、追加評価を適用すべき時期を決定する。
さらに、モデルパラメータを変更することなく、そのようなケースを検出し、推論一貫性を向上させる2つの解釈可能なフェアネスインジケータを導入する。
ベンチマークデータセットの実験では、FairToTは安定かつ信頼性の高い毒性予測を維持しながら、グループレベルの格差を低減し、予測時間の改善がLSMベースの毒性評価システムにおける公平性改善に効果的かつ実用的なアプローチを提供することを示した。
ソースコードはhttps://aisuko.github.io/fair-tot/にある。
関連論文リスト
- When LLM Judges Inflate Scores: Exploring Overrating in Relevance Assessment [29.603396943658428]
大型言語モデル(LLM)は、人間の判断のためのプロキシとして使用できる。
モデルは、真に基礎となる情報要求を満たさない通路に、インフレータブルな関連度スコアを常に割り当てていることを示す。
実験の結果,LSMによる相対性判定は通路長や表面の語彙的手がかりに非常に敏感であることが示唆された。
論文 参考訳(メタデータ) (2026-02-19T08:37:21Z) - Gaming the Judge: Unfaithful Chain-of-Thought Can Undermine Agent Evaluation [76.5533899503582]
大規模言語モデル(LLM)は、エージェントのパフォーマンスを評価するために、ますます裁判官として使われている。
このパラダイムは、エージェントのチェーン・オブ・シークレット(CoT)推論が内部の推論と環境状態の両方を忠実に反映していることを暗黙的に仮定している。
我々は、操作された推論だけで、様々なWebタスクにまたがる800の軌跡に対して、最先端のVLM審査員の偽陽性率を最大90%向上させることができることを実証した。
論文 参考訳(メタデータ) (2026-01-21T06:07:43Z) - HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective [24.54292750583169]
大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiSCo(Fine-fine Semantic Comparison)を提案する。
モデル出力を意味的に異なるクレームに分解し、グループ間およびグループ間の類似性を比較するために統計的仮説テストを適用する。
論文 参考訳(メタデータ) (2025-06-23T18:31:22Z) - Is Your Model Fairly Certain? Uncertainty-Aware Fairness Evaluation for LLMs [7.197702136906138]
モデルフェアネスのきめ細かい評価を可能にするため,不確実性を考慮した評価基準であるUCerFを提案する。
現在のデータセットにおけるデータサイズ、多様性、明快さの問題を観察し、新しいジェンダー占有公正度評価データセットを導入する。
我々は、メトリックとデータセットを使用してベンチマークを確立し、それを10のオープンソースAIシステムの動作評価に適用する。
論文 参考訳(メタデータ) (2025-05-29T20:45:18Z) - Metamorphic Testing for Fairness Evaluation in Large Language Models: Identifying Intersectional Bias in LLaMA and GPT [2.380039717474099]
大規模言語モデル(LLM)は自然言語処理において大きな進歩を遂げてきたが、公平性に関連する問題に対して脆弱なままである。
本稿では,LLMにおける公平なバグを系統的に同定するメタモルフィックテスト手法を提案する。
論文 参考訳(メタデータ) (2025-04-04T21:04:14Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System [9.470545149911072]
本稿では,LCMを利用したリコメンデータシステムにおいて,消費者の公正性をベンチマークするための規範的フレームワークを提案する。
このギャップは公平性に関する任意の結論につながる可能性があると我々は主張する。
MovieLensデータセットの消費者の公正性に関する実験は、年齢ベースの推奨において公平さの偏りを明らかにしている。
論文 参考訳(メタデータ) (2024-05-03T16:25:27Z) - Learning Informative Representation for Fairness-aware Multivariate
Time-series Forecasting: A Group-based Perspective [50.093280002375984]
多変量時系列予測モデル(MTS)では変数間の性能不公平性が広く存在する。
フェアネスを意識したMTS予測のための新しいフレームワークであるFairForを提案する。
論文 参考訳(メタデータ) (2023-01-27T04:54:12Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。