論文の概要: Safe-Child-LLM: A Developmental Benchmark for Evaluating LLM Safety in Child-LLM Interactions
- arxiv url: http://arxiv.org/abs/2506.13510v2
- Date: Tue, 17 Jun 2025 02:13:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-18 13:08:30.128009
- Title: Safe-Child-LLM: A Developmental Benchmark for Evaluating LLM Safety in Child-LLM Interactions
- Title(参考訳): 安全型LLM:小児型LLMインタラクションにおけるLPM安全性評価のための開発ベンチマーク
- Authors: Junfeng Jiao, Saleh Afroogh, Kevin Chen, Abhejay Murali, David Atkinson, Amit Dhurandhar,
- Abstract要約: 子ども(7~12歳)と青年(13~17歳)の2つの発達段階において,AIの安全性を評価するためのベンチマークとデータセットであるSafe-Child-LLMを紹介した。
我々のフレームワークは、赤チームコーパスからキュレートされた200の敵のプロンプトからなる新しい多部データセットと、ジェイルブレイク成功のための人名ラベルと、標準化された0-5の倫理的拒絶尺度を含む。
ChatGPT、Claude、Gemini、LLaMA、DeepSeek、Grok、Vicuna、Mistralを含む主要なLCMを評価することで、子供向けシナリオにおける重大な安全性の欠陥が明らかになった。
- 参考スコア(独自算出の注目度): 8.018569128518187
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As Large Language Models (LLMs) increasingly power applications used by children and adolescents, ensuring safe and age-appropriate interactions has become an urgent ethical imperative. Despite progress in AI safety, current evaluations predominantly focus on adults, neglecting the unique vulnerabilities of minors engaging with generative AI. We introduce Safe-Child-LLM, a comprehensive benchmark and dataset for systematically assessing LLM safety across two developmental stages: children (7-12) and adolescents (13-17). Our framework includes a novel multi-part dataset of 200 adversarial prompts, curated from red-teaming corpora (e.g., SG-Bench, HarmBench), with human-annotated labels for jailbreak success and a standardized 0-5 ethical refusal scale. Evaluating leading LLMs -- including ChatGPT, Claude, Gemini, LLaMA, DeepSeek, Grok, Vicuna, and Mistral -- we uncover critical safety deficiencies in child-facing scenarios. This work highlights the need for community-driven benchmarks to protect young users in LLM interactions. To promote transparency and collaborative advancement in ethical AI development, we are publicly releasing both our benchmark datasets and evaluation codebase at https://github.com/The-Responsible-AI-Initiative/Safe_Child_LLM_Benchmark.git
- Abstract(参考訳): 大型言語モデル(LLM)は、子供や青年が利用する応用をますます力づけているため、安全で年齢に合った相互作用を確保することは、緊急の倫理的規範となっている。
AIの安全性の進歩にもかかわらず、現在の評価は主に大人に焦点を当てており、生成的AIに関わる未成年者のユニークな脆弱性を無視している。
子ども (7-12) と青年 (13-17) の2つの発達段階において, LLM の安全性を体系的に評価するための総合的なベンチマークとデータセットである Safe-Child-LLM を紹介する。
我々のフレームワークは、赤チームコーパス(例えば、SG-Bench、HarmBench)からキュレートされた200の敵のプロンプトからなる新しいマルチパートデータセットと、ジェイルブレイク成功のための人称アノテートラベルと、標準的な0-5の倫理的拒絶尺度を含む。
ChatGPT、Claude、Gemini、LLaMA、DeepSeek、Grok、Vicuna、Mistralを含む主要なLCMを評価することで、子どもが直面するシナリオにおける重大な安全性の欠陥が明らかになった。
この研究は、LLMインタラクションにおける若いユーザを保護するために、コミュニティ主導のベンチマークの必要性を強調している。
倫理的AI開発における透明性と協調的な進歩を促進するため、私たちはベンチマークデータセットと評価コードベースをhttps://github.com/The-Responsible-AI-Initiative/Safe_Child_LLM_Benchmark.gitで公開しています。
関連論文リスト
- MinorBench: A hand-built benchmark for content-based risks for children [0.0]
大型言語モデル(LLM)は、親主導の養子縁組、学校、ピアネットワークを通じて、子供の生活に急速に浸透している。
現在のAI倫理と安全研究は、未成年者特有のコンテンツ関連リスクに適切に対処していない。
我々は,未成年者に対するコンテンツベースのリスクの新しい分類法を提案し,子どもの安全でないクエリや不適切なクエリを拒否する能力に基づいてLSMを評価するために設計されたオープンソースのベンチマークであるMinorBenchを紹介した。
論文 参考訳(メタデータ) (2025-03-13T10:34:43Z) - LLMs and Childhood Safety: Identifying Risks and Proposing a Protection Framework for Safe Child-LLM Interaction [8.018569128518187]
本研究では,子育て型アプリケーションにおけるLarge Language Models (LLMs) の利用拡大について検討する。
これは、バイアス、有害なコンテンツ、文化的過敏といった安全性と倫理上の懸念を強調している。
本稿では,コンテンツ安全性,行動倫理,文化的感受性の指標を取り入れた安全・LLMインタラクションのための保護フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-16T19:39:48Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - Flames: Benchmarking Value Alignment of LLMs in Chinese [86.73527292670308]
本稿では,Flamesという値アライメントベンチマークを提案する。
一般的な無害の原則と、特定の中国の価値観を統合するユニークな道徳的側面の両方を包含している。
以上の結果から, 評価されたLLMはフラムに対して比較的低い性能を示した。
論文 参考訳(メタデータ) (2023-11-12T17:18:21Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。