論文の概要: FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation
- arxiv url: http://arxiv.org/abs/2602.23636v2
- Date: Tue, 03 Mar 2026 08:48:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-04 14:54:12.424519
- Title: FlexGuard: Continuous Risk Scoring for Strictness-Adaptive LLM Content Moderation
- Title(参考訳): FlexGuard: Strictness-Adaptive LLMコンテンツモデレーションのための継続的リスクスコア付け
- Authors: Zhihao Ding, Jinming Li, Ze Lu, Jieming Shi,
- Abstract要約: リスク重大度を反映した校正連続リスクスコアを出力するLDMベースのモデレータであるFlexGuardを紹介する。
スコアと重大性の整合性を改善するために、リスク調整最適化を通じてFlexGuardをトレーニングします。
FlexBenchと公開ベンチマークの実験では、FlexGuardはモデレーションの精度を向上し、厳密性の変化の下でロバスト性を大幅に改善している。
- 参考スコア(独自算出の注目度): 6.3463255900985365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Ensuring the safety of LLM-generated content is essential for real-world deployment. Most existing guardrail models formulate moderation as a fixed binary classification task, implicitly assuming a fixed definition of harmfulness. In practice, enforcement strictness - how conservatively harmfulness is defined and enforced - varies across platforms and evolves over time, making binary moderators brittle under shifting requirements. We first introduce FlexBench, a strictness-adaptive LLM moderation benchmark that enables controlled evaluation under multiple strictness regimes. Experiments on FlexBench reveal substantial cross-strictness inconsistency in existing moderators: models that perform well under one regime can degrade substantially under others, limiting their practical usability. To address this, we propose FlexGuard, an LLM-based moderator that outputs a calibrated continuous risk score reflecting risk severity and supports strictness-specific decisions via thresholding. We train FlexGuard via risk-alignment optimization to improve score-severity consistency and provide practical threshold selection strategies to adapt to target strictness at deployment. Experiments on FlexBench and public benchmarks demonstrate that FlexGuard achieves higher moderation accuracy and substantially improved robustness under varying strictness. We release the source code and data to support reproducibility.
- Abstract(参考訳): LLM生成コンテンツの安全性を確保することは、現実のデプロイメントに不可欠である。
既存のガードレールモデルの多くは、モデレーションを固定二項分類タスクとして定式化し、有害性の固定定義を暗黙的に仮定している。
実際には、執行の厳格さ(保守的な有害さの定義と強制)はプラットフォームによって異なり、時間の経過とともに進化し、バイナリモデレーターはシフト要件の下で不安定になる。
まず、厳密度適応型LCMモデレーションベンチマークFlexBenchを紹介し、複数の厳密度条件下での制御評価を可能にする。
FlexBenchの実験では、既存のモデレーターではかなりの制約の矛盾が明らかになっている。
そこで本研究では,リスク重大度を反映した校正連続リスクスコアを出力し,しきい値設定による厳密性決定をサポートするLLMベースのモデレータFlexGuardを提案する。
リスクアライメントの最適化を通じてFlexGuardをトレーニングし、スコアと重大性の整合性を改善し、デプロイ時にターゲットの厳密性に適応するための実用的なしきい値選択戦略を提供します。
FlexBenchと公開ベンチマークの実験では、FlexGuardはモデレーションの精度を向上し、厳密性の変化の下でロバスト性を大幅に改善している。
再現性をサポートするために、ソースコードとデータをリリースします。
関連論文リスト
- BandPO: Bridging Trust Regions and Ratio Clipping via Probability-Aware Bounds for LLM Reinforcement Learning [49.25750348525603]
BandPOは、信頼領域を動的で確率対応のクリッピング間隔に投影する統一理論演算子であるBandに取って代わる。
BandPOはカノニカルクリッピングやClip-Higherより一貫して優れ,エントロピー崩壊の軽減が図られている。
論文 参考訳(メタデータ) (2026-03-05T08:03:05Z) - Improving LLM Reliability through Hybrid Abstention and Adaptive Detection [1.9495934446083012]
運用環境にデプロイされる大規模言語モデル(LLM)は、基本的な安全ユーティリティトレードオフに直面します。
静的ルールや固定された信頼しきい値に基づく従来のガードレールは通常、文脈に敏感で計算コストが高い。
本研究では,リアルタイムのコンテキスト信号に基づいて安全閾値を動的に調整する適応型禁制システムを提案する。
論文 参考訳(メタデータ) (2026-02-17T07:00:09Z) - Multi-LLM Adaptive Conformal Inference for Reliable LLM Responses [18.60553322553765]
我々は,主張レベルスコアの積として事実性をモデル化し,乗法的フィルタリング設定における共形推論を再構成する。
我々の手法であるMulti-LLM Adaptive Conformal Inference (MACI)はアンサンブルを利用してより正確な事実度スコアを生成する。
実験の結果,MACIはベースラインよりも保持率と時間コストが著しく高く,ユーザ指定のカバレッジを一貫して達成していることがわかった。
論文 参考訳(メタデータ) (2026-02-01T15:34:45Z) - FlexLoRA: Entropy-Guided Flexible Low-Rank Adaptation [33.208889745659825]
大規模な事前学習モデルは様々な領域で顕著な成功を収めるが、完全な微調整は計算とメモリのコストを禁ずる。
我々は,世界予算下でのランクプルーニングと拡張をサポートするエントロピー誘導型フレキシブルローランク適応フレームワークFlexLoRAを提案する。
実験によると、FlexLoRAはベンチマーク全体で、最先端のベースラインを一貫して上回っている。
論文 参考訳(メタデータ) (2026-01-30T12:25:47Z) - YuFeng-XGuard: A Reasoning-Centric, Interpretable, and Flexible Guardrail Model for Large Language Models [36.084240131323824]
我々はYuFeng-XGuardについて紹介する。YuFeng-XGuardは大規模言語モデル(LLM)のための論理中心ガードレールモデルである。
YuFeng-XGuardは不透明な二項判定を生成する代わりに、明確なリスクカテゴリや信頼性スコアを含む構造化されたリスク予測を生成する。
リスク認識を政策執行から切り離す動的政策機構を導入し、モデルの再訓練なしに安全政策を調整できるようにした。
論文 参考訳(メタデータ) (2026-01-22T02:23:18Z) - SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - Steerable Adversarial Scenario Generation through Test-Time Preference Alignment [58.37104890690234]
対立シナリオ生成は、自律運転システムの安全性評価のためのコスト効率の良いアプローチである。
textbfSteerable textbfAdversarial scenario textbfGEnerator (SAGE) という新しいフレームワークを導入する。
SAGEは、逆境とリアリズムの間のトレードオフを、再トレーニングなしできめ細かいテストタイムコントロールを可能にします。
論文 参考訳(メタデータ) (2025-09-24T13:27:35Z) - Efficient Switchable Safety Control in LLMs via Magic-Token-Guided Co-Training [1.5349686675266894]
LLM(Large Language Models)におけるコンテンツ安全性の現在の手法は、マルチステージトレーニングパイプラインに依存している。
複数の安全性挙動を効率的に統合する統合協調学習フレームワークを提案する。
我々は,SFT+DPOの安全アライメント品質に一致し,安全性能においてDeepSeek-R1 (671B) を上回る8Bモデルを示した。
論文 参考訳(メタデータ) (2025-08-12T02:39:33Z) - BingoGuard: LLM Content Moderation Tools with Risk Levels [67.53167973090356]
大きな言語モデル(LLM)によって生成された悪意のあるコンテンツは、様々な程度に害を与える可能性がある。
本稿では,11の有害トピックに対するトピックごとの重度ルーブリックを導入し,LLMに基づくモデレーションシステムであるBingoGuardを構築する。
論文 参考訳(メタデータ) (2025-03-09T10:43:09Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - Robust Multi-Agent Reinforcement Learning via Adversarial
Regularization: Theoretical Foundation and Stable Algorithms [79.61176746380718]
MARL(Multi-Agent Reinforcement Learning)はいくつかの領域で有望な結果を示している。
MARLポリシーは、しばしば堅牢性を欠き、環境の小さな変化に敏感である。
政策のリプシッツ定数を制御することにより、ロバスト性を得ることができることを示す。
政策のリプシッツ連続性を促進する新しい堅牢なMARLフレームワークであるERNIEを提案する。
論文 参考訳(メタデータ) (2023-10-16T20:14:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。