論文の概要: Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models
- arxiv url: http://arxiv.org/abs/2512.05339v1
- Date: Fri, 05 Dec 2025 00:43:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:56.854193
- Title: Taxonomy-Adaptive Moderation Model with Robust Guardrails for Large Language Models
- Title(参考訳): 大規模言語モデルのためのロバストガードレールを用いた分類適応型モデレーションモデル
- Authors: Mahesh Kumar Nandwana, Youngwan Lim, Joseph Liu, Alex Yang, Varun Notibala, Nishchaie Khanna,
- Abstract要約: 大規模言語モデル(LLM)は通常、トレーニング後の段階で安全のために整列される。
ユーザに対してリスクをもたらす可能性のある,不適切なアウトプットを生成することも可能だ。
この課題は、モデル入力と出力の両方にわたって動作する堅牢なセーフガードの必要性を浮き彫りにする。
- 参考スコア(独自算出の注目度): 3.710103086278309
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are typically aligned for safety during the post-training phase; however, they may still generate inappropriate outputs that could potentially pose risks to users. This challenge underscores the need for robust safeguards that operate across both model inputs and outputs. In this work, we introduce Roblox Guard 1.0, a state-of-the-art instruction fine-tuned LLM designed to enhance the safety of LLM systems through comprehensive input-output moderation, using a pipeline of LLMs to enhance moderation capability. Built on the Llama-3.1-8B-Instruct backbone, our model is instruction fine-tuned to generalize across previously unseen safety taxonomies and demonstrates strong performance on out-of-domain safety benchmarks. The instruction fine-tuning process uses a mix of synthetic and open-source safety datasets, augmented with chain-of-thought (CoT) rationales and input inversion to enhance contextual understanding and decision making. To support systematic evaluation, we also release RobloxGuard-Eval, a new benchmark featuring an extensible safety taxonomy to assess the effectiveness of LLM guardrails and moderation frameworks.
- Abstract(参考訳): 大規模言語モデル(LLM)は通常、トレーニング後のフェーズで安全のために整列されるが、ユーザに対してリスクをもたらす可能性のある不適切なアウトプットを生成する可能性がある。
この課題は、モデル入力と出力の両方にわたって動作する堅牢なセーフガードの必要性を浮き彫りにする。
本稿では,LLMのパイプラインを用いて,総合的なインプット・アウトプット・モデレーションを通じてLLMシステムの安全性を高めることを目的とした,最先端の命令微調整LDMであるRoblox Guard 1.0を紹介する。
Llama-3.1-8B-Instructのバックボーン上に構築された我々のモデルは、これまで見つからなかった安全分類の一般化を微調整し、ドメイン外の安全性ベンチマークで高い性能を示す。
命令の微調整プロセスは、合成された安全データセットとオープンソースの安全データセットを組み合わせて、チェーン・オブ・ソート(CoT)の合理性と入力インバージョンを用いて、文脈的理解と意思決定を強化する。
また,LLMガードレールとモデレーションフレームワークの有効性を評価するために,拡張可能な安全分類を特徴とする新しいベンチマークであるRobloxGuard-Evalをリリースする。
関連論文リスト
- Token-level Data Selection for Safe LLM Fine-tuning [15.039068315115372]
カスタムデータセット上での微調整大型言語モデル(LLM)は、これらのモデルを特定のドメインやアプリケーションに適用するための標準的なアプローチとなっている。
近年の研究では、このような微調整がモデルの安全性を著しく低下させる可能性があることが示されている。
本稿では,安全劣化モデルとユーティリティ指向モデルとの損失差を測定することにより,各トークンの安全性リスクを定量化する新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2026-03-01T16:52:05Z) - Light Alignment Improves LLM Safety via Model Self-Reflection with a Single Neuron [28.570811283705556]
大規模言語モデル(LLM)の安全性は、その開発における基本的側面としてますます高まっている。
LLMの既存の安全アライメントは、主にポストトレーニング手法によって達成される。
本稿では,専門家モデルの低コストトレーニングのみを要し,単一のニューロンをゲーティング機構として利用する安全対応復号法を提案する。
論文 参考訳(メタデータ) (2026-02-02T12:21:54Z) - When Safe Unimodal Inputs Collide: Optimizing Reasoning Chains for Cross-Modal Safety in Multimodal Large Language Models [50.66979825532277]
我々は、クロスモーダルチャレンジに適した解釈可能な推論パスを備えた最初のデータセットであるSSUI(Safe-Semantics-but-Unsafe-Interpretation)を紹介した。
新たなトレーニングフレームワークであるSRPO(Safety-Aware Reasoning Path Optimization)も、SSUIデータセットに基づいて設計されている。
実験の結果, SRPO学習モデルでは, キーセーフティベンチマークで最先端の結果が得られた。
論文 参考訳(メタデータ) (2025-09-15T15:40:58Z) - ReGA: Representation-Guided Abstraction for Model-based Safeguarding of LLMs [0.9285458070502282]
大きな言語モデル(LLM)は様々なタスクで大きな成功を収めていますが、安全性とセキュリティに関する懸念が生まれています。
機械学習モデルを解析し、監視するために、モデルに基づく分析は、ステートフルなディープニューラルネットワークにおいて顕著な可能性を示している。
本稿では,表現誘導抽象化を用いたモデルベース分析フレームワークReGAを提案し,LLMを有害なプロンプトや世代に対して保護する。
論文 参考訳(メタデータ) (2025-06-02T15:17:38Z) - ShieldGemma: Generative AI Content Moderation Based on Gemma [49.91147965876678]
ShieldGemmaは、Gemma2上に構築された安全コンテンツモデレーションモデルのスイートである。
モデルは、主要な危険タイプにわたる安全リスクの堅牢で最先端の予測を提供する。
論文 参考訳(メタデータ) (2024-07-31T17:48:14Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Developing Safe and Responsible Large Language Model : Can We Balance Bias Reduction and Language Understanding in Large Language Models? [2.089112028396727]
本研究では,大規模言語モデルが知識や理解を犠牲にすることなく,安全でバイアスのないアウトプットを生成できるかどうかを考察する。
Safe and Responsible Large Language Model (textbfSR$_textLLM$)を紹介する。
textbfSR$_textLLM$は知識の整合性を保ちながらバイアスを効果的に軽減する。
論文 参考訳(メタデータ) (2024-04-01T18:10:05Z) - RigorLLM: Resilient Guardrails for Large Language Models against Undesired Content [62.685566387625975]
現在の緩和戦略は効果はあるものの、敵の攻撃下では弾力性がない。
本稿では,大規模言語モデルのための弾力性ガードレール(RigorLLM)について紹介する。
論文 参考訳(メタデータ) (2024-03-19T07:25:02Z) - ROSE Doesn't Do That: Boosting the Safety of Instruction-Tuned Large Language Models with Reverse Prompt Contrastive Decoding [89.0074567748505]
本稿では,既存の命令調整LDMの安全性を高めるための簡易な手法であるROSE(Reverse prompt contrastive decoding)を提案する。
6つの安全性と2つの汎用タスクの実験から、ROSEは5種類の命令調整LDMに対して、一貫した、重要な安全性向上(+13.8%の安全性スコア)をもたらすだけでなく、LLMの汎用能力にも恩恵をもたらすことが示されている。
論文 参考訳(メタデータ) (2024-02-19T06:58:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。