論文の概要: CR4T: Rewrite-Based Guardrails for Adolescent LLM Safety
- arxiv url: http://arxiv.org/abs/2605.21609v1
- Date: Wed, 20 May 2026 18:16:18 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-22 16:35:41.951741
- Title: CR4T: Rewrite-Based Guardrails for Adolescent LLM Safety
- Title(参考訳): CR4T:青少年向けリライト式ガードレール
- Authors: Heajun An, Qi Zhang, Vedanth Achanta, Jin-Hee Cho,
- Abstract要約: 大型言語モデル(LLM)は青年期のデジタル環境にますます組み込まれている。
既存の安全メカニズムは、成人中心の規範に大きく根ざしている。
モデルに依存しない安全保護フレームワークであるCR4Tを提案する。
- 参考スコア(独自算出の注目度): 9.164865563559891
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) are increasingly embedded in adolescent digital environments, mediating information seeking, advice, and emotionally sensitive interactions. Yet existing safety mechanisms remain largely grounded in adult-centric norms and operationalize safety through refusal-oriented suppression. While such approaches may reduce immediate policy violations, they can also create conversational dead-ends, limit constructive guidance, and fail to address the developmental vulnerabilities inherent in adolescent-AI interactions. We argue that adolescent LLM safety should be framed not solely as a filtering problem, but as a socio-technical, developmentally aligned transformation problem. To operationalize this perspective, we propose Critique-and-Revise-for-Teenagers (CR4T), a model-agnostic safeguarding framework that selectively reconstructs unsafe or refusal-style outputs into ageappropriate, guidance-oriented responses while preserving benign intent. CR4T combines lightweight risk detection with domain-conditioned rewriting to remove risk-amplifying content, reduce unnecessary conversational shutdown, and introduce developmentally appropriate guidance. Experimental results show that targeted rewriting substantially reduces unsafe and refusal-oriented outcomes while avoiding unnecessary intervention on acceptable interactions. These findings suggest that selective response reconstruction offers a more human-centered alternative to refusal-centric guardrails for adolescent-facing LLM systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、情報探索、アドバイス、感情に敏感な相互作用を媒介する青年期のデジタル環境にますます組み込まれている。
しかし、既存の安全メカニズムは、成人中心の規範に大きく根ざし、拒絶指向の抑制を通じて安全を運用している。
このようなアプローチは、即時的なポリシー違反を減らす可能性があるが、会話のデッドエンドを作成し、建設的なガイダンスを制限し、青少年とAIの相互作用に固有の発達上の脆弱性に対処することができない。
青年期LSMの安全性は、単なるフィルタリング問題ではなく、社会技術的、発達的に整合した変換問題であるべきだと我々は主張する。
この視点を運用するために、安全でない、または拒否的な出力を、良心を保ちながら、年齢に合ったガイダンス指向の応答に選択的に再構成するモデルに依存しない保護フレームワークであるCritique-and-Revise-for-Teenagers (CR4T)を提案する。
CR4Tは、軽量なリスク検出とドメイン条件の書き換えを組み合わせることで、リスクを増幅するコンテンツを削除し、不要な会話のシャットダウンを減らし、発達的に適切なガイダンスを導入する。
実験結果から, 対象の書き換えは, 許容される相互作用に対する不要な介入を回避しつつ, 安全でない, 拒否指向的な結果を大幅に減少させることが示された。
これらの結果から, 若年者向けLPMシステムにおいて, 選択的応答再構成は, 拒絶中心のガードレールよりも人間中心の代替となることが示唆された。
関連論文リスト
- SafeRedir: Prompt Embedding Redirection for Robust Unlearning in Image Generation Models [67.84174763413178]
我々はSafeRedirを紹介した。SafeRedirは、迅速な埋め込みリダイレクトによる堅牢なアンラーニングのための軽量な推論時フレームワークである。
SafeRedirは,効果的な非学習能力,意味的・知覚的保存能力,堅牢な画像品質,対人攻撃に対する耐性の向上を実現している。
論文 参考訳(メタデータ) (2026-01-13T15:01:38Z) - SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth [14.569766143989531]
子供や青年を対象とするアプリケーションにおける大規模言語モデル(LLM)の急速な普及は、一般的なAI安全フレームワークの根本的な再評価を必要とする。
本稿では,年齢別認知,情緒的,社会的リスクなどの不適切な範囲を含む,既存のLCM安全性ベンチマークにおける重要な欠陥を明らかにする。
SproutBenchは,情緒的依存やプライバシー侵害,危険行動の模倣といったリスクを調査するための,1,283の発達的根拠を持つ敵のプロンプトからなる,革新的な評価スイートである。
論文 参考訳(メタデータ) (2025-08-14T18:21:39Z) - Safe-Child-LLM: A Developmental Benchmark for Evaluating LLM Safety in Child-LLM Interactions [8.018569128518187]
子ども(7~12歳)と青年(13~17歳)の2つの発達段階において,AIの安全性を評価するためのベンチマークとデータセットであるSafe-Child-LLMを紹介した。
我々のフレームワークは、赤チームコーパスからキュレートされた200の敵のプロンプトからなる新しい多部データセットと、ジェイルブレイク成功のための人名ラベルと、標準化された0-5の倫理的拒絶尺度を含む。
ChatGPT、Claude、Gemini、LLaMA、DeepSeek、Grok、Vicuna、Mistralを含む主要なLCMを評価することで、子供向けシナリオにおける重大な安全性の欠陥が明らかになった。
論文 参考訳(メタデータ) (2025-06-16T14:04:54Z) - Shape it Up! Restoring LLM Safety during Finetuning [65.75757313781104]
大型言語モデル(LLM)の微調整は、ユーザ固有のカスタマイズを可能にするが、重大な安全性リスクをもたらす。
動的安全整形(DSS)は,不安全コンテンツを抑えつつ,応答の安全な部分からの学習を強化するための,きめ細かい安全信号を用いたフレームワークである。
STARスコアによって導かれるSTAR-DSSは、微調整リスクを堅牢に軽減し、多様な脅威、データセット、モデルファミリーにまたがる大幅な安全性の向上を提供する。
論文 参考訳(メタデータ) (2025-05-22T18:05:16Z) - MIRAGE: Multimodal Immersive Reasoning and Guided Exploration for Red-Team Jailbreak Attacks [85.3303135160762]
MIRAGEは、物語駆動型コンテキストとロール没入を利用して、マルチモーダル大規模言語モデルにおける安全性メカニズムを回避する新しいフレームワークである。
最先端のパフォーマンスを達成し、最高のベースラインよりも攻撃成功率を最大17.5%向上させる。
役割の浸漬と構造的セマンティック再構築は、モデル固有のバイアスを活性化し、モデルが倫理的保護に自発的に違反することを実証する。
論文 参考訳(メタデータ) (2025-03-24T20:38:42Z) - Safety Mirage: How Spurious Correlations Undermine VLM Safety Fine-Tuning and Can Be Mitigated by Machine Unlearning [43.209846711845536]
現在のアライメント戦略は、キュレートされたデータセットによる監視された安全性の微調整に依存している。
教師付き微調整は,表面テクスチャパターンと安全応答の急激な相関を必然的に強化することを示す。
マシン・アンラーニング(MU)は、教師付き安全微調整の強力な代替手段であることを示す。
論文 参考訳(メタデータ) (2025-03-14T19:52:08Z) - Refuse Whenever You Feel Unsafe: Improving Safety in LLMs via Decoupled Refusal Training [67.30423823744506]
我々は,LLMに対して,いかなる応答位置においても有害なプロンプトへのコンプライアンスを拒否する権限を付与する,新しいアプローチであるDecoupled Refusal Training(DeRTa)を導入する。
DeRTaは,(1)安全応答の開始に有害な応答のセグメントを付加することにより,安全でないコンテンツの認識と回避をモデルに訓練する,(2)有害応答シーケンスを通して潜在的障害から安全拒絶へ移行する能力をモデルに装備する強化遷移最適化(RTO)という,2つの新しいコンポーネントを組み込んでいる。
論文 参考訳(メタデータ) (2024-07-12T09:36:33Z) - On Prompt-Driven Safeguarding for Large Language Models [172.13943777203377]
表現空間では、入力クエリは通常、安全プロンプトによって「より高い拒絶」方向に移動される。
これらの知見に触発されて,安全性向上,すなわちDROの最適化手法を提案する。
安全性プロンプトを継続的かつトレーニング可能な埋め込みとして扱うことで、DROは、その有害性に応じて、クエリの表現を拒否方向に沿ってあるいは反対に移動させることを学ぶ。
論文 参考訳(メタデータ) (2024-01-31T17:28:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。