論文の概要: SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth
- arxiv url: http://arxiv.org/abs/2508.11009v1
- Date: Thu, 14 Aug 2025 18:21:39 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-18 14:51:23.639579
- Title: SproutBench: A Benchmark for Safe and Ethical Large Language Models for Youth
- Title(参考訳): SproutBench: 若者のための安全で倫理的な大規模言語モデルのためのベンチマーク
- Authors: Wenpeng Xing, Lanyi Wei, Haixiao Hu, Rongchang Li, Mohan Li, Changting Lin, Meng Han,
- Abstract要約: 子供や青年を対象とするアプリケーションにおける大規模言語モデル(LLM)の急速な普及は、一般的なAI安全フレームワークの根本的な再評価を必要とする。
本稿では,年齢別認知,情緒的,社会的リスクなどの不適切な範囲を含む,既存のLCM安全性ベンチマークにおける重要な欠陥を明らかにする。
SproutBenchは,情緒的依存やプライバシー侵害,危険行動の模倣といったリスクを調査するための,1,283の発達的根拠を持つ敵のプロンプトからなる,革新的な評価スイートである。
- 参考スコア(独自算出の注目度): 14.569766143989531
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The rapid proliferation of large language models (LLMs) in applications targeting children and adolescents necessitates a fundamental reassessment of prevailing AI safety frameworks, which are largely tailored to adult users and neglect the distinct developmental vulnerabilities of minors. This paper highlights key deficiencies in existing LLM safety benchmarks, including their inadequate coverage of age-specific cognitive, emotional, and social risks spanning early childhood (ages 0--6), middle childhood (7--12), and adolescence (13--18). To bridge these gaps, we introduce SproutBench, an innovative evaluation suite comprising 1,283 developmentally grounded adversarial prompts designed to probe risks such as emotional dependency, privacy violations, and imitation of hazardous behaviors. Through rigorous empirical evaluation of 47 diverse LLMs, we uncover substantial safety vulnerabilities, corroborated by robust inter-dimensional correlations (e.g., between Safety and Risk Prevention) and a notable inverse relationship between Interactivity and Age Appropriateness. These insights yield practical guidelines for advancing child-centric AI design and deployment.
- Abstract(参考訳): 子供や青年を対象とするアプリケーションにおける大規模言語モデル(LLM)の急激な普及は、未成年者の発達上の脆弱性を無視し、主に大人向けに調整されたAI安全フレームワークの基本的な再評価を必要とする。
本稿は, 年齢別認知, 感情, 社会的リスクが, 幼少期 (0~6歳), 中年期 (7~12歳), 青年期 (13~18歳) にまたがる, 既往のLCM安全性ベンチマークの問題点を明らかにする。
これらのギャップを埋めるために, 1,283個の発達的基盤を持つ敵のプロンプトからなる革新的な評価スイートであるSproutBenchを紹介した。
47種類のLCMの厳密な実証評価を通じて, 厳密な相互相関(例えば, 安全とリスク予防の相関)と, 相互活動と年齢適合性の顕著な逆関係により, 重大な安全性上の脆弱性を明らかにする。
これらの洞察は、子供中心のAI設計と展開を進めるための実践的なガイドラインを生み出します。
関連論文リスト
- Beyond Reactive Safety: Risk-Aware LLM Alignment via Long-Horizon Simulation [69.63626052852153]
本稿では,モデル生成によるアドバイスが社会システムを通じてどのように伝播するかを示す概念実証フレームワークを提案する。
また、100の間接的な害シナリオのデータセットを導入し、害のないユーザプロンプトから有害で非有害な結果を予測するモデルの能力をテストする。
論文 参考訳(メタデータ) (2025-06-26T02:28:58Z) - Safe-Child-LLM: A Developmental Benchmark for Evaluating LLM Safety in Child-LLM Interactions [8.018569128518187]
子ども(7~12歳)と青年(13~17歳)の2つの発達段階において,AIの安全性を評価するためのベンチマークとデータセットであるSafe-Child-LLMを紹介した。
我々のフレームワークは、赤チームコーパスからキュレートされた200の敵のプロンプトからなる新しい多部データセットと、ジェイルブレイク成功のための人名ラベルと、標準化された0-5の倫理的拒絶尺度を含む。
ChatGPT、Claude、Gemini、LLaMA、DeepSeek、Grok、Vicuna、Mistralを含む主要なLCMを評価することで、子供向けシナリオにおける重大な安全性の欠陥が明らかになった。
論文 参考訳(メタデータ) (2025-06-16T14:04:54Z) - MinorBench: A hand-built benchmark for content-based risks for children [0.0]
大型言語モデル(LLM)は、親主導の養子縁組、学校、ピアネットワークを通じて、子供の生活に急速に浸透している。
現在のAI倫理と安全研究は、未成年者特有のコンテンツ関連リスクに適切に対処していない。
我々は,未成年者に対するコンテンツベースのリスクの新しい分類法を提案し,子どもの安全でないクエリや不適切なクエリを拒否する能力に基づいてLSMを評価するために設計されたオープンソースのベンチマークであるMinorBenchを紹介した。
論文 参考訳(メタデータ) (2025-03-13T10:34:43Z) - AILuminate: Introducing v1.0 of the AI Risk and Reliability Benchmark from MLCommons [62.374792825813394]
本稿ではAI製品リスクと信頼性を評価するための業界標準ベンチマークとして,AIluminate v1.0を紹介する。
このベンチマークは、危険、違法、または望ましくない行動を12の危険カテゴリーで引き起こすように設計されたプロンプトに対するAIシステムの抵抗を評価する。
論文 参考訳(メタデータ) (2025-02-19T05:58:52Z) - LLMs and Childhood Safety: Identifying Risks and Proposing a Protection Framework for Safe Child-LLM Interaction [8.018569128518187]
本研究では,子育て型アプリケーションにおけるLarge Language Models (LLMs) の利用拡大について検討する。
これは、バイアス、有害なコンテンツ、文化的過敏といった安全性と倫理上の懸念を強調している。
本稿では,コンテンツ安全性,行動倫理,文化的感受性の指標を取り入れた安全・LLMインタラクションのための保護フレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-16T19:39:48Z) - Agent-SafetyBench: Evaluating the Safety of LLM Agents [72.92604341646691]
我々は,大規模言語モデル(LLM)の安全性を評価するベンチマークであるAgent-SafetyBenchを紹介する。
Agent-SafetyBenchは349のインタラクション環境と2,000のテストケースを含み、安全リスクの8つのカテゴリを評価し、安全でないインタラクションで頻繁に発生する10の一般的な障害モードをカバーする。
16 名の LLM エージェントを評価した結果,いずれのエージェントも 60% 以上の安全性スコアを達成できないことがわかった。
論文 参考訳(メタデータ) (2024-12-19T02:35:15Z) - Safety Assessment of Chinese Large Language Models [51.83369778259149]
大規模言語モデル(LLM)は、侮辱や差別的なコンテンツを生成し、誤った社会的価値を反映し、悪意のある目的のために使用されることがある。
安全で責任があり倫理的なAIの展開を促進するため、LLMによる100万の強化プロンプトとレスポンスを含むセーフティプロンプトをリリースする。
論文 参考訳(メタデータ) (2023-04-20T16:27:35Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。