論文の概要: CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models
- arxiv url: http://arxiv.org/abs/2602.05633v1
- Date: Thu, 05 Feb 2026 13:13:19 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.937642
- Title: CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models
- Title(参考訳): CASTLE:大規模言語モデルにおける学生の個人化安全度評価のための総合ベンチマーク
- Authors: Rui Jia, Ruiyi Lan, Fengrui Liu, Zhongxiang Dai, Bo Jiang, Jing Shao, Jingyuan Chen, Guandong Xu, Fei Wu, Min Zhang,
- Abstract要約: 本稿では,学生用個人安全の概念を提案し,教育理論に基づくCASTLEの構築を行う。
このベンチマークは、92,908のバイリンガルシナリオを含む15の教育安全リスクと14の学生属性をカバーしている。
- 参考スコア(独自算出の注目度): 55.0103764229311
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have advanced the development of personalized learning in education. However, their inherent generation mechanisms often produce homogeneous responses to identical prompts. This one-size-fits-all mechanism overlooks the substantial heterogeneity in students cognitive and psychological, thereby posing potential safety risks to vulnerable groups. Existing safety evaluations primarily rely on context-independent metrics such as factual accuracy, bias, or toxicity, which fail to capture the divergent harms that the same response might cause across different student attributes. To address this gap, we propose the concept of Student-Tailored Personalized Safety and construct CASTLE based on educational theories. This benchmark covers 15 educational safety risks and 14 student attributes, comprising 92,908 bilingual scenarios. We further design three evaluation metrics: Risk Sensitivity, measuring the model ability to detect risks; Emotional Empathy, evaluating the model capacity to recognize student states; and Student Alignment, assessing the match between model responses and student attributes. Experiments on 18 SOTA LLMs demonstrate that CASTLE poses a significant challenge: all models scored below an average safety rating of 2.3 out of 5, indicating substantial deficiencies in personalized safety assurance.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育におけるパーソナライズされた学習の発展を進展させてきた。
しかしながら、それらの固有の生成機構は、しばしば同一のプロンプトに対する均一な応答を生じる。
このワンサイズ・フィット・オールのメカニズムは、学生の認知と心理学におけるかなりの異質性を見落とし、脆弱なグループに潜在的な安全リスクを生じさせる。
既存の安全性評価は、主に事実の正確性、偏見、毒性といった文脈に依存しない指標に依存しており、これは、同じ反応が異なる学生属性にまたがる影響を捉えるのに失敗する。
このギャップに対処するために,学生用個人安全の概念を提案し,教育理論に基づくCASTLEの構築を行う。
このベンチマークは、92,908のバイリンガルシナリオを含む15の教育安全リスクと14の学生属性をカバーしている。
さらに、リスク感性、リスクを検出するモデル能力の測定、感情的共感、学生の状態を認識するモデル能力の評価、モデル応答と学生属性の一致を評価する学生アライメントという3つの評価指標を設計する。
18のSOTA LLMの実験では、CASTLEが大きな課題を生んでいることが示されている: パーソナライズされた安全保証に重大な欠陥があることが示されている。
関連論文リスト
- SafeRBench: A Comprehensive Benchmark for Safety Assessment in Large Reasoning Models [60.8821834954637]
LRMの安全性をエンドツーエンドに評価する最初のベンチマークであるSafeRBenchを紹介する。
私たちは、リスクカテゴリとレベルを入力設計に組み込んだ先駆者です。
我々は,長い推論トレースを意味的に一貫性のある単位にセグメント化するためのマイクロシンクのチャンキング機構を導入する。
論文 参考訳(メタデータ) (2025-11-19T06:46:33Z) - EduGuardBench: A Holistic Benchmark for Evaluating the Pedagogical Fidelity and Adversarial Safety of LLMs as Simulated Teachers [8.123835490773095]
職業シミュレーションのための大規模言語モデル(SP-LLM)は、パーソナライズされた教育において重要である。
EduGuardBenchはロールプレイングフィデリティスコア(RFS)を用いてプロのフィデリティを評価する
また、一般的な害、特に学術的不正をターゲットとしたペルソナベースの敵対的プロンプトを使用して安全性の脆弱性を調査する。
論文 参考訳(メタデータ) (2025-11-10T09:42:24Z) - Prompt Injection as an Emerging Threat: Evaluating the Resilience of Large Language Models [0.0]
本研究では,Large Language Models (LLM) のインジェクション攻撃に対する耐性を評価するための統一フレームワークを提案する。
このフレームワークは、堅牢性、安全性、セマンティック安定性を共同で測定するRDI(Resilience Degradation Index)、SCC(Safety Compliance Coefficient)、IIM(Constructal Integrity Metric)という3つの指標を定義している。
論文 参考訳(メタデータ) (2025-11-03T14:43:56Z) - What's Pulling the Strings? Evaluating Integrity and Attribution in AI Training and Inference through Concept Shift [33.83306492023009]
ConceptLensは、トレーニング済みのマルチモーダルモデルを利用して、整合性の脅威を特定する汎用フレームワークである。
悪意のあるコンセプトシフトによる隠蔽広告の生成など、バイアス注入に対する脆弱性を明らかにする。
生成的コンテンツにおける社会学的バイアスを明らかにし、社会学的文脈にまたがる格差を明らかにする。
論文 参考訳(メタデータ) (2025-04-28T13:30:48Z) - ConSiDERS-The-Human Evaluation Framework: Rethinking Human Evaluation for Generative Large Language Models [53.00812898384698]
生成型大規模言語モデル(LLM)の人間による評価は多分野にわたる作業であるべきだと論じる。
認知バイアスが、流動的な情報や真理をいかに説明するか、そして、認識の不確実性が、Likertのような評価スコアの信頼性にどのように影響するかを強調します。
本稿では,ConSiDERS-The-Human評価フレームワークを提案する。一貫性,スコーリング基準,差別化,ユーザエクスペリエンス,責任,スケーラビリティの6つの柱からなる。
論文 参考訳(メタデータ) (2024-05-28T22:45:28Z) - ASSERT: Automated Safety Scenario Red Teaming for Evaluating the
Robustness of Large Language Models [65.79770974145983]
ASSERT、Automated Safety Scenario Red Teamingは、セマンティックなアグリゲーション、ターゲットブートストラップ、敵の知識注入という3つの方法で構成されている。
このプロンプトを4つの安全領域に分割し、ドメインがモデルの性能にどのように影響するかを詳細に分析する。
統計的に有意な性能差は, 意味的関連シナリオにおける絶対分類精度が最大11%, ゼロショット逆数設定では最大19%の絶対誤差率であることがわかった。
論文 参考訳(メタデータ) (2023-10-14T17:10:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。