論文の概要: Evaluating LLM Safety Across Child Development Stages: A Simulated Agent Approach
- arxiv url: http://arxiv.org/abs/2510.05484v1
- Date: Tue, 07 Oct 2025 01:01:04 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-08 17:57:08.043257
- Title: Evaluating LLM Safety Across Child Development Stages: A Simulated Agent Approach
- Title(参考訳): 子どもの発達段階におけるLCM安全性の評価 : シミュレーションエージェントアプローチ
- Authors: Abhejay Murali, Saleh Afroogh, Kevin Chen, David Atkinson, Amit Dhurandhar, Junfeng Jiao,
- Abstract要約: シミュレーションされた子エージェントを用いてLLM(Large Language Models)の安全性を評価するベンチマークであるChildSafeを提案する。
チャイルドセーフは、感度と中性の両方の文脈で年齢重み付けスコアを使用して、9つの安全次元にわたる応答を評価する。
- 参考スコア(独自算出の注目度): 9.544657426086284
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are rapidly becoming part of tools used by children; however, existing benchmarks fail to capture how these models manage language, reasoning, and safety needs that are specific to various ages. We present ChildSafe, a benchmark that evaluates LLM safety through simulated child agents that embody four developmental stages. These agents, grounded in developmental psychology, enable a systematic study of child safety without the ethical implications of involving real children. ChildSafe assesses responses across nine safety dimensions (including privacy, misinformation, and emotional support) using age-weighted scoring in both sensitive and neutral contexts. Multi-turn experiments with multiple LLMs uncover consistent vulnerabilities that vary by simulated age, exposing shortcomings in existing alignment practices. By releasing agent templates, evaluation protocols, and an experimental corpus, we provide a reproducible framework for age-aware safety research. We encourage the community to expand this work with real child-centered data and studies, advancing the development of LLMs that are genuinely safe and developmentally aligned.
- Abstract(参考訳): 大型言語モデル(LLM)は、子供の使用するツールの一部として急速に普及している。しかし、既存のベンチマークでは、これらのモデルがどのように言語、推論、そして様々な年齢に特有の安全性のニーズを管理するかを捉えていない。
4つの発達段階を具現化したシミュレートされた児童エージェントを用いて,LSMの安全性を評価するベンチマークであるChildSafeを提案する。
これらのエージェントは発達心理学に基礎を置いており、実際の子どもを巻き込むという倫理的意味を伴わない、子どもの安全に関する体系的な研究を可能にしている。
ChildSafeは、9つの安全次元(プライバシー、誤情報、感情的サポートを含む)にわたる応答を、センシティブな状況と中立な状況の両方で年齢重み付けスコアを用いて評価する。
複数のLLMを用いたマルチターン実験は、シミュレーション年齢によって異なる一貫性のある脆弱性を発見し、既存のアライメントプラクティスの欠点を明らかにする。
エージェントテンプレート,評価プロトコル,実験コーパスを公開することにより,年齢対応型安全研究のための再現可能なフレームワークを提供する。
我々は、実際の子供中心のデータと研究でこの作業を拡大し、真に安全で開発に整合したLCMの開発を進めることをコミュニティに奨励する。
関連論文リスト
- SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth [14.569766143989531]
子供や青年を対象とするアプリケーションにおける大規模言語モデル(LLM)の急速な普及は、一般的なAI安全フレームワークの根本的な再評価を必要とする。
本稿では,年齢別認知,情緒的,社会的リスクなどの不適切な範囲を含む,既存のLCM安全性ベンチマークにおける重要な欠陥を明らかにする。
SproutBenchは,情緒的依存やプライバシー侵害,危険行動の模倣といったリスクを調査するための,1,283の発達的根拠を持つ敵のプロンプトからなる,革新的な評価スイートである。
論文 参考訳(メタデータ) (2025-08-14T18:21:39Z) - Safe-Child-LLM: A Developmental Benchmark for Evaluating LLM Safety in Child-LLM Interactions [8.018569128518187]
子ども(7~12歳)と青年(13~17歳)の2つの発達段階において,AIの安全性を評価するためのベンチマークとデータセットであるSafe-Child-LLMを紹介した。
我々のフレームワークは、赤チームコーパスからキュレートされた200の敵のプロンプトからなる新しい多部データセットと、ジェイルブレイク成功のための人名ラベルと、標準化された0-5の倫理的拒絶尺度を含む。
ChatGPT、Claude、Gemini、LLaMA、DeepSeek、Grok、Vicuna、Mistralを含む主要なLCMを評価することで、子供向けシナリオにおける重大な安全性の欠陥が明らかになった。
論文 参考訳(メタデータ) (2025-06-16T14:04:54Z) - MinorBench: A hand-built benchmark for content-based risks for children [0.0]
大型言語モデル(LLM)は、親主導の養子縁組、学校、ピアネットワークを通じて、子供の生活に急速に浸透している。
現在のAI倫理と安全研究は、未成年者特有のコンテンツ関連リスクに適切に対処していない。
我々は,未成年者に対するコンテンツベースのリスクの新しい分類法を提案し,子どもの安全でないクエリや不適切なクエリを拒否する能力に基づいてLSMを評価するために設計されたオープンソースのベンチマークであるMinorBenchを紹介した。
論文 参考訳(メタデータ) (2025-03-13T10:34:43Z) - LLM Safety for Children [9.935219917903858]
この研究は、標準的な安全評価によって見落とされがちな子供の多様性を認めている。
本研究は,児童医療・心理学における文献による児童の個人性や興味の多様性を反映した児童ユーザモデルを開発する。
論文 参考訳(メタデータ) (2025-02-18T05:26:27Z) - Multimodal Situational Safety [73.63981779844916]
マルチモーダル・シチュエーション・セーフティ(Multimodal situational Safety)と呼ばれる新しい安全課題の評価と分析を行う。
MLLMが言語やアクションを通じても安全に応答するためには、言語クエリが対応する視覚的コンテキスト内での安全性への影響を評価する必要があることが多い。
我々は,現在のMLLMの状況安全性能を評価するためのマルチモーダル状況安全ベンチマーク(MSSBench)を開発した。
論文 参考訳(メタデータ) (2024-10-08T16:16:07Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z) - The Art of Defending: A Systematic Evaluation and Analysis of LLM
Defense Strategies on Safety and Over-Defensiveness [56.174255970895466]
大規模言語モデル(LLM)は、自然言語処理アプリケーションにおいて、ますます重要な役割を担っている。
本稿では,SODE(Safety and Over-Defensiveness Evaluation)ベンチマークを提案する。
論文 参考訳(メタデータ) (2023-12-30T17:37:06Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。