論文の概要: On Calibration of LLM-based Guard Models for Reliable Content Moderation
- arxiv url: http://arxiv.org/abs/2410.10414v1
- Date: Mon, 14 Oct 2024 12:04:06 GMT
- ステータス: 処理完了
- システム内更新日: 2024-10-29 21:44:49.440693
- Title: On Calibration of LLM-based Guard Models for Reliable Content Moderation
- Title(参考訳): LLMを用いた信頼性コンテンツモデレーションのためのガードモデルの校正について
- Authors: Hongfu Liu, Hengguan Huang, Hao Wang, Xiangming Gu, Ye Wang,
- Abstract要約: 大規模言語モデル(LLM)は、有害なコンテンツを生成する可能性や、ガードレールを避けようとするユーザによって、重大なリスクを負う。
既存の研究では、脅威LSMの入力と出力を適度にするためのLLMベースのガードモデルが開発されている。
しかし、これらのガードモデルの信頼性と校正には限定的な注意が払われている。
- 参考スコア(独自算出の注目度): 27.611237252584402
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) pose significant risks due to the potential for generating harmful content or users attempting to evade guardrails. Existing studies have developed LLM-based guard models designed to moderate the input and output of threat LLMs, ensuring adherence to safety policies by blocking content that violates these protocols upon deployment. However, limited attention has been given to the reliability and calibration of such guard models. In this work, we empirically conduct comprehensive investigations of confidence calibration for 9 existing LLM-based guard models on 12 benchmarks in both user input and model output classification. Our findings reveal that current LLM-based guard models tend to 1) produce overconfident predictions, 2) exhibit significant miscalibration when subjected to jailbreak attacks, and 3) demonstrate limited robustness to the outputs generated by different types of response models. Additionally, we assess the effectiveness of post-hoc calibration methods to mitigate miscalibration. We demonstrate the efficacy of temperature scaling and, for the first time, highlight the benefits of contextual calibration for confidence calibration of guard models, particularly in the absence of validation sets. Our analysis and experiments underscore the limitations of current LLM-based guard models and provide valuable insights for the future development of well-calibrated guard models toward more reliable content moderation. We also advocate for incorporating reliability evaluation of confidence calibration when releasing future LLM-based guard models.
- Abstract(参考訳): 大規模言語モデル(LLM)は、有害なコンテンツを生成する可能性や、ガードレールを避けようとするユーザのために重大なリスクを負う。
既存の研究は、脅威LSMの入力と出力を緩和し、これらのプロトコルに違反するコンテンツをブロックすることで安全性ポリシーの遵守を確保するために、LSMベースのガードモデルを開発した。
しかし、これらのガードモデルの信頼性と校正には限定的な注意が払われている。
本研究では、ユーザ入力とモデル出力の分類の両方において、既存のLCMベースのガードモデル9つのベンチマークに対して、信頼性校正に関する総合的な調査を経験的に実施する。
以上の結果から,現在のLLMを用いたガードモデルでは,その傾向が示唆された。
1) 過信予測を作成する。
2)脱獄攻撃を受けた場合の重大な誤診,及び
3) 異なるタイプの応答モデルによって生成された出力に対して、限られた堅牢性を示す。
さらに,誤校正を緩和するためのポストホック校正法の有効性を評価する。
温度スケーリングの有効性を実証し、特に検証セットの欠如において、ガードモデルの信頼性校正に対する文脈校正の利点を初めて強調する。
我々の分析と実験は、現在のLLMベースのガードモデルの限界を浮き彫りにして、より信頼性の高いコンテンツモデレーションに向けた、十分に校正されたガードモデルの開発に向けた貴重な洞察を提供する。
また、将来のLCMベースのガードモデルをリリースする際に、信頼性校正の信頼性評価を取り入れることも提唱する。
関連論文リスト
- Confidence Estimation for LLM-Based Dialogue State Tracking [9.305763502526833]
大規模言語モデル(LLM)に基づく会話型AIシステムでは,モデルの出力に対する信頼度の推定が重要である。
オープン・アンド・クローズド・ウェイト LLM に提案するアプローチを含む,手法の徹底的な探索を行う。
以上の結果から, 微調整式オープンウェイトLLMはAUC性能が向上し, 信頼性スコアの校正精度が向上することが示唆された。
論文 参考訳(メタデータ) (2024-09-15T06:44:26Z) - Enhancing Healthcare LLM Trust with Atypical Presentations Recalibration [20.049443396032423]
ブラックボックスの大規模言語モデル(LLM)は、様々な環境に徐々に展開されている。
LLMは、しばしば過剰な自信を示し、潜在的なリスクや誤った判断につながる。
本稿では,非定型的なプレゼンテーションを利用してモデルの信頼度を推定する新しい手法であるtextitAtypical presentations Recalibrationを提案する。
論文 参考訳(メタデータ) (2024-09-05T03:45:35Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Large Language Models Must Be Taught to Know What They Don't Know [97.90008709512921]
正解と誤解の小さなデータセットを微調整すると、高い一般化と計算オーバーヘッドの少ない不確実性推定が得られることを示す。
また,確実な不確実性推定を可能にする機構についても検討し,多くのモデルを汎用的不確実性推定器として利用することができることを示した。
論文 参考訳(メタデータ) (2024-06-12T16:41:31Z) - Cycles of Thought: Measuring LLM Confidence through Stable Explanations [53.15438489398938]
大規模言語モデル(LLM)は、様々なベンチマークで人間レベルの精度に到達し、さらに超えることができるが、不正確な応答における過度な自信は、依然として十分に文書化された障害モードである。
本稿では,LLMの不確実性を測定するためのフレームワークを提案する。
論文 参考訳(メタデータ) (2024-06-05T16:35:30Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Calibrating Large Language Models Using Their Generations Only [44.26441565763495]
APRICOT は、信頼目標を設定し、テキスト入力と出力のみに基づいて LLM の信頼度を予測する追加モデルを訓練する手法である。
概念的には単純で、出力以上のターゲットモデルへのアクセスを必要とせず、言語生成に干渉せず、多くの潜在的な使用法を持っている。
閉書質問応答における白箱と黒箱のLCMの校正誤差を考慮し,誤ったLCMの解答を検出する方法として,本手法の競合性を示す。
論文 参考訳(メタデータ) (2024-03-09T17:46:24Z) - Calibrating Large Language Models with Sample Consistency [76.23956851098598]
本稿では,複数サンプルモデル生成系の分布から信頼度を導出する可能性について,一貫性の3つの尺度を用いて検討する。
その結果、一貫性に基づくキャリブレーション手法は、既存のポストホック手法よりも優れていることがわかった。
種々のLMの特性に合わせて,キャリブレーションに適した整合性指標を選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2024-02-21T16:15:20Z) - Calibrating Long-form Generations from Large Language Models [34.72041258464477]
大きな言語モデル(LLM)の信頼性スコアは、その応答が正しいという実際の可能性と一致すべきである。
現在の信頼性評価手法とキャリブレーション基準は、応答の正しさを2値の真/偽評価に頼っている。
本稿では,LLMの応答の正しさと関連する信頼度の両方を,様々なスコアの分布として扱う統一校正フレームワークを提案する。
論文 参考訳(メタデータ) (2024-02-09T17:00:32Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。