論文の概要: When to Invoke: Refining LLM Fairness with Toxicity Assessment
- arxiv url: http://arxiv.org/abs/2601.09250v1
- Date: Wed, 14 Jan 2026 07:35:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-15 18:59:20.314135
- Title: When to Invoke: Refining LLM Fairness with Toxicity Assessment
- Title(参考訳): いつ起動するか - 毒性評価によるLCMフェアネスの精錬
- Authors: Jing Ren, Bowen Li, Ziqi Xu, Renqiang Luo, Shuo Yu, Xin Ye, Haytham Fayek, Xiaodong Li, Feng Xia,
- Abstract要約: 大規模言語モデル(LLM)は、オンラインモデレーションシステムにおける毒性評価にますます利用されている。
本研究では, 早期誘導毒性評価によりLCMの公平性を高める推論時フレームワークであるFairToTを提案する。
ベンチマークデータセットの実験では、FairToTは安定的で信頼性の高い毒性予測を維持しながら、グループレベルの格差を低減する。
- 参考スコア(独自算出の注目度): 16.84048602922096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are increasingly used for toxicity assessment in online moderation systems, where fairness across demographic groups is essential for equitable treatment. However, LLMs often produce inconsistent toxicity judgements for subtle expressions, particularly those involving implicit hate speech, revealing underlying biases that are difficult to correct through standard training. This raises a key question that existing approaches often overlook: when should corrective mechanisms be invoked to ensure fair and reliable assessments? To address this, we propose FairToT, an inference-time framework that enhances LLM fairness through prompt-guided toxicity assessment. FairToT identifies cases where demographic-related variation is likely to occur and determines when additional assessment should be applied. In addition, we introduce two interpretable fairness indicators that detect such cases and improve inference consistency without modifying model parameters. Experiments on benchmark datasets show that FairToT reduces group-level disparities while maintaining stable and reliable toxicity predictions, demonstrating that inference-time refinement offers an effective and practical approach for fairness improvement in LLM-based toxicity assessment systems. The source code can be found at https://aisuko.github.io/fair-tot/.
- Abstract(参考訳): 大規模言語モデル (LLMs) は、オンラインモデレーションシステムにおいて、公平な治療に人口集団間の公平性が不可欠であるような毒性評価にますます用いられる。
しかし、LSMは微妙な表現、特に暗黙のヘイトスピーチに関わるものに対して矛盾する毒性判定をしばしば生み出す。
これは、既存のアプローチがしばしば見落としている重要な疑問を提起する。 公正で信頼性の高い評価を保証するために、いつ修正メカニズムを呼び出すべきか?
そこで本研究では,早急誘導毒性評価によりLCMの公平性を高める推論時フレームワークであるFairToTを提案する。
FairToTは、人口統計関連の変動が発生する可能性のあるケースを特定し、追加評価を適用すべき時期を決定する。
さらに、モデルパラメータを変更することなく、そのようなケースを検出し、推論一貫性を向上させる2つの解釈可能なフェアネスインジケータを導入する。
ベンチマークデータセットの実験では、FairToTは安定かつ信頼性の高い毒性予測を維持しながら、グループレベルの格差を低減し、予測時間の改善がLSMベースの毒性評価システムにおける公平性改善に効果的かつ実用的なアプローチを提供することを示した。
ソースコードはhttps://aisuko.github.io/fair-tot/にある。
関連論文リスト
- HALF: Harm-Aware LLM Fairness Evaluation Aligned with Deployment [52.374772443536045]
HALF(Harm-Aware LLM Fairness)は、現実的なアプリケーションにおけるモデルバイアスを評価し、有害度によって結果を評価するフレームワークである。
HALFは、以前のベンチマークの成功とデプロイメントの準備の整合性の間に明らかなギャップがあることを示します。
論文 参考訳(メタデータ) (2025-10-14T07:13:26Z) - Quantifying Fairness in LLMs Beyond Tokens: A Semantic and Statistical Perspective [24.54292750583169]
大規模言語モデル(LLM)は、しばしば固有のバイアスを伴う応答を生成し、現実のアプリケーションにおける信頼性を損なう。
LLMにおけるグループレベルの公平性を評価するための新しい統計フレームワークであるFiSCo(Fine-fine Semantic Comparison)を提案する。
モデル出力を意味的に異なるクレームに分解し、グループ間およびグループ間の類似性を比較するために統計的仮説テストを適用する。
論文 参考訳(メタデータ) (2025-06-23T18:31:22Z) - Estimating Commonsense Plausibility through Semantic Shifts [66.06254418551737]
セマンティックシフトを測定することでコモンセンスの妥当性を定量化する新しい識別フレームワークであるComPaSSを提案する。
2種類の細粒度コモンセンス可視性評価タスクの評価は,ComPaSSが一貫してベースラインを上回っていることを示している。
論文 参考訳(メタデータ) (2025-02-19T06:31:06Z) - Identifying and Mitigating Social Bias Knowledge in Language Models [52.52955281662332]
個々人の社会的偏見をきめ細かなキャリブレーションを可能にする新しいデバイアス・アプローチであるFairness Stamp(FAST)を提案する。
FASTは最先端のベースラインを超え、デバイアス性能が優れている。
これは、大きな言語モデルにおける公平性を達成するためのきめ細かいデバイアス戦略の可能性を強調している。
論文 参考訳(メタデータ) (2024-08-07T17:14:58Z) - A Normative Framework for Benchmarking Consumer Fairness in Large Language Model Recommender System [9.470545149911072]
本稿では,LCMを利用したリコメンデータシステムにおいて,消費者の公正性をベンチマークするための規範的フレームワークを提案する。
このギャップは公平性に関する任意の結論につながる可能性があると我々は主張する。
MovieLensデータセットの消費者の公正性に関する実験は、年齢ベースの推奨において公平さの偏りを明らかにしている。
論文 参考訳(メタデータ) (2024-05-03T16:25:27Z) - Learning Informative Representation for Fairness-aware Multivariate
Time-series Forecasting: A Group-based Perspective [50.093280002375984]
多変量時系列予測モデル(MTS)では変数間の性能不公平性が広く存在する。
フェアネスを意識したMTS予測のための新しいフレームワークであるFairForを提案する。
論文 参考訳(メタデータ) (2023-01-27T04:54:12Z) - Measuring Fairness of Text Classifiers via Prediction Sensitivity [63.56554964580627]
加速度予測感度は、入力特徴の摂動に対するモデルの予測感度に基づいて、機械学習モデルの公正度を測定する。
この計量は、群フェアネス(統計パリティ)と個人フェアネスという特定の概念と理論的に関連付けられることを示す。
論文 参考訳(メタデータ) (2022-03-16T15:00:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。