論文の概要: The Age of Curiosity Meets the Age of AI: Benchmarking Child Safety in Large Language Models
- arxiv url: http://arxiv.org/abs/2605.25510v2
- Date: Tue, 26 May 2026 09:53:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-27 17:51:41.100068
- Title: The Age of Curiosity Meets the Age of AI: Benchmarking Child Safety in Large Language Models
- Title(参考訳): 好奇心の時代とAIの時代:大規模言語モデルにおける子どもの安全のベンチマーク
- Authors: Samee Arif, Angana Borah, Rada Mihalcea,
- Abstract要約: 7~11歳の子ども向け大規模言語モデルの安全性を評価するベンチマークであるKIDBenchを紹介する。
KIDBenchには10のカテゴリにわたる現実的な子クエリがあり、シングルターンプロンプトとマルチターンの子-アクターシミュレーションがある。
KIDGuardLlamaは子供指向の反応モデルであり、KIDBenchがより安全な子供向けAIをどのようにサポートするかを示している。
- 参考スコア(独自算出の注目度): 35.56441154476198
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Children increasingly have access to Large Language Models (LLMs), which may expose them to responses that are developmentally inappropriate or require age-sensitive safety, guidance, and boundaries. Existing LLM safety evaluations largely focus on harmful-content avoidance and do not explicitly target child-facing safety. We introduce KIDBench, a benchmark for evaluating child-facing LLM safety for ages 7-11 using a developmental-psychology-grounded LLM-as-a-Judge rubric. KIDBench contains realistic child queries across ten categories, with single-turn prompts and multi-turn child-actor simulations. We compare no-cues prompts with no child context, implicit-cues prompts that suggest a child speaker, and explicit age instructions. Implicit-cues improve scores by 9-47% across models, while explicit age adds a further 10-30% gain. Cross-lingual and cultural evaluations show uneven safety behavior across languages and country contexts. Multi-turn simulations show that child-facing response quality can degrade by 6-24% from the first to worst turn. Beyond evaluation, we introduce KIDGuardLlama, a child-safety evaluator, and KIDLlama, a child-oriented response model, showing how KIDBench supports safer child-facing AI.
- Abstract(参考訳): 子どもはLarge Language Models (LLM) にアクセスしやすくなり、発達的に不適切か年齢に敏感な安全性、ガイダンス、境界を必要とする応答にそれらを公開する。
既存のLCMの安全性評価は、主に有害なコンテンツ回避に焦点を合わせており、明示的に子向きの安全性を目標としていない。
発達心理学的なLLM-as-a-Judgeルーリックを用いた7~11歳児向けLCM安全性評価のベンチマークであるKIDBenchを紹介する。
KIDBenchには10のカテゴリにわたる現実的な子クエリがあり、シングルターンプロンプトとマルチターンの子-アクターシミュレーションがある。
子どもの文脈のないノー・キュー・プロンプトと、子どもの話者を示唆する暗黙のキュー・プロンプトと、明示的な年齢指示とを比較した。
インシシット・キューはモデル全体のスコアを9~47%改善し、明示年齢はさらに10~30%上昇した。
言語横断的・文化的評価は、言語や国の文脈にまたがる不均一な安全行動を示す。
マルチターンシミュレーションでは、第1回から第1回までの反応品質が6~24%低下することが示されている。
評価以外にも、子どもの安全評価ツールであるKIDGuardLlamaと、子ども指向の反応モデルであるKIDLlamaを導入し、KIDBenchがより安全な子ども向けAIをどのようにサポートするかを示した。
関連論文リスト
- CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models [55.0103764229311]
本稿では,学生用個人安全の概念を提案し,教育理論に基づくCASTLEの構築を行う。
このベンチマークは、92,908のバイリンガルシナリオを含む15の教育安全リスクと14の学生属性をカバーしている。
論文 参考訳(メタデータ) (2026-02-05T13:13:19Z) - Evaluating LLM Safety Across Child Development Stages: A Simulated Agent Approach [9.544657426086284]
シミュレーションされた子エージェントを用いてLLM(Large Language Models)の安全性を評価するベンチマークであるChildSafeを提案する。
チャイルドセーフは、感度と中性の両方の文脈で年齢重み付けスコアを使用して、9つの安全次元にわたる応答を評価する。
論文 参考訳(メタデータ) (2025-10-07T01:01:04Z) - SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth [14.569766143989531]
子供や青年を対象とするアプリケーションにおける大規模言語モデル(LLM)の急速な普及は、一般的なAI安全フレームワークの根本的な再評価を必要とする。
本稿では,年齢別認知,情緒的,社会的リスクなどの不適切な範囲を含む,既存のLCM安全性ベンチマークにおける重要な欠陥を明らかにする。
SproutBenchは,情緒的依存やプライバシー侵害,危険行動の模倣といったリスクを調査するための,1,283の発達的根拠を持つ敵のプロンプトからなる,革新的な評価スイートである。
論文 参考訳(メタデータ) (2025-08-14T18:21:39Z) - Safe-Child-LLM: A Developmental Benchmark for Evaluating LLM Safety in Child-LLM Interactions [8.018569128518187]
子ども(7~12歳)と青年(13~17歳)の2つの発達段階において,AIの安全性を評価するためのベンチマークとデータセットであるSafe-Child-LLMを紹介した。
我々のフレームワークは、赤チームコーパスからキュレートされた200の敵のプロンプトからなる新しい多部データセットと、ジェイルブレイク成功のための人名ラベルと、標準化された0-5の倫理的拒絶尺度を含む。
ChatGPT、Claude、Gemini、LLaMA、DeepSeek、Grok、Vicuna、Mistralを含む主要なLCMを評価することで、子供向けシナリオにおける重大な安全性の欠陥が明らかになった。
論文 参考訳(メタデータ) (2025-06-16T14:04:54Z) - MinorBench: A hand-built benchmark for content-based risks for children [0.0]
大型言語モデル(LLM)は、親主導の養子縁組、学校、ピアネットワークを通じて、子供の生活に急速に浸透している。
現在のAI倫理と安全研究は、未成年者特有のコンテンツ関連リスクに適切に対処していない。
我々は,未成年者に対するコンテンツベースのリスクの新しい分類法を提案し,子どもの安全でないクエリや不適切なクエリを拒否する能力に基づいてLSMを評価するために設計されたオープンソースのベンチマークであるMinorBenchを紹介した。
論文 参考訳(メタデータ) (2025-03-13T10:34:43Z) - SafeDialBench: A Fine-Grained Safety Benchmark for Large Language Models in Multi-Turn Dialogues with Diverse Jailbreak Attacks [90.41592442792181]
大規模言語モデル(LLM)の安全性を評価するための詳細なベンチマーク SafeDialBench を提案する。
具体的には,6つの安全次元を考慮した2階層型階層型安全分類法を設計し,22の対話シナリオの下で中国語と英語の双方で4000以上のマルチターン対話を生成する。
特に,LLMの革新的なアセスメントフレームワークを構築し,安全でない情報を検出し,処理し,ジェイルブレイク攻撃時の一貫性を維持する。
論文 参考訳(メタデータ) (2025-02-16T12:08:08Z) - SORRY-Bench: Systematically Evaluating Large Language Model Safety Refusal [64.9938658716425]
SORRY-Benchは、安全でないユーザ要求を認識し拒否する大規模言語モデル(LLM)能力を評価するためのベンチマークである。
まず、既存の手法では、安全でないトピックの粗い分類を使い、いくつかのきめ細かいトピックを過剰に表現している。
第二に、プロンプトの言語的特徴とフォーマッティングは、様々な言語、方言など、多くの評価において暗黙的にのみ考慮されているように、しばしば見過ごされる。
論文 参考訳(メタデータ) (2024-06-20T17:56:07Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。