論文の概要: SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems
- arxiv url: http://arxiv.org/abs/2603.17373v1
- Date: Wed, 18 Mar 2026 05:33:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-19 18:32:57.522387
- Title: SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems
- Title(参考訳): SafeTutors:AIチューニングシステムにおける教育的安全性のベンチマーク
- Authors: Rima Hazra, Bikram Ghuku, Ilona Marchenko, Yaroslava Tokarieva, Sayan Layek, Somnath Banerjee, Julia Stoyanovich, Mykola Pechenizkiy,
- Abstract要約: SafeTutorsは、数学、物理学、化学における安全性と教育を共同で評価するベンチマークである。
スケールは確実に役に立ちませんし、マルチターンダイアログは振る舞いを悪化させ、教育上の失敗は17.7%から77.8%に上昇します。
ハームは主題によっても異なるため、緩和は規律を意識する必要があり、シングルターンの"セーフ/ヘルパフル"の結果は、拡張された相互作用よりも体系的な家庭教師の失敗を隠蔽することができる。
- 参考スコア(独自算出の注目度): 28.55608350602746
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models are rapidly being deployed as AI tutors, yet current evaluation paradigms assess problem-solving accuracy and generic safety in isolation, failing to capture whether a model is simultaneously pedagogically effective and safe across student-tutor interaction. We argue that tutoring safety is fundamentally different from conventional LLM safety: the primary risk is not toxic content but the quiet erosion of learning through answer over-disclosure, misconception reinforcement, and the abdication of scaffolding. To systematically study this failure mode, we introduce SafeTutors, a benchmark that jointly evaluates safety and pedagogy across mathematics, physics, and chemistry. SafeTutors is organized around a theoretically grounded risk taxonomy comprising 11 harm dimensions and 48 sub-risks drawn from learning-science literature. We uncover that all models show broad harm; scale doesn't reliably help; and multi-turn dialogue worsens behavior, with pedagogical failures rising from 17.7% to 77.8%. Harms also vary by subject, so mitigations must be discipline-aware, and single-turn "safe/helpful" results can mask systematic tutor failure over extended interaction.
- Abstract(参考訳): 大規模な言語モデルは、AIチューターとして急速にデプロイされているが、現在の評価パラダイムは、問題解決の正確さと分離時の一般的な安全性を評価している。
学習の安全性は従来のLLMの安全性とは根本的に異なる: 主なリスクは有害な内容ではなく、解答の過剰開示、誤解の強化、足場への退避による学習の静かな侵食である。
この障害モードを体系的に研究するために,数学,物理学,化学の安全と教育を共同で評価するベンチマークであるSafeTutorsを導入する。
SafeTutorsは、11の有害次元と48のサブリスクからなる理論的に根拠付けられたリスク分類に基づいて構成されている。
スケールは確実に役に立ちませんし、マルチターンダイアログは振る舞いを悪化させ、教育上の失敗は17.7%から77.8%に上昇します。
ハームは主題によっても異なるため、緩和は規律を意識する必要があり、シングルターンの"セーフ/ヘルパフル"の結果は、拡張された相互作用よりも体系的な家庭教師の失敗を隠蔽することができる。
関連論文リスト
- SafeSci: Safety Evaluation of Large Language Models in Science Domains and Beyond [134.43113804188195]
安全評価と科学的文脈の強化のための包括的枠組みであるSafeSciを紹介する。
SafeSciには、0.25Mサンプルを持つマルチディシプリナのベンチマークであるSafeSciBenchと、安全性向上のための1.5Mサンプルを含む大規模データセットであるSafeSciTrainが含まれている。
論文 参考訳(メタデータ) (2026-03-02T08:16:04Z) - CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models [55.0103764229311]
本稿では,学生用個人安全の概念を提案し,教育理論に基づくCASTLEの構築を行う。
このベンチマークは、92,908のバイリンガルシナリオを含む15の教育安全リスクと14の学生属性をカバーしている。
論文 参考訳(メタデータ) (2026-02-05T13:13:19Z) - EduGuardBench: A Holistic Benchmark for Evaluating the Pedagogical Fidelity and Adversarial Safety of LLMs as Simulated Teachers [8.123835490773095]
職業シミュレーションのための大規模言語モデル(SP-LLM)は、パーソナライズされた教育において重要である。
EduGuardBenchはロールプレイングフィデリティスコア(RFS)を用いてプロのフィデリティを評価する
また、一般的な害、特に学術的不正をターゲットとしたペルソナベースの敵対的プロンプトを使用して安全性の脆弱性を調査する。
論文 参考訳(メタデータ) (2025-11-10T09:42:24Z) - SOSBENCH: Benchmarking Safety Alignment on Scientific Knowledge [11.63268709958876]
SOSBenchは、大規模な言語モデルのための規制対象のハザード中心のベンチマークである。
化学、生物学、医学、薬理学、物理学、心理学の6つのリスクの高い分野をカバーしている。
SOSBenchを用いた統合評価フレームワークにおけるフロンティアモデルの評価を行った。
論文 参考訳(メタデータ) (2025-05-27T17:47:08Z) - Safety Pretraining: Toward the Next Generation of Safe AI [68.99129474671282]
モデルの安全性を最初から構築する,データ中心の事前トレーニングフレームワークを提案する。
我々のフレームワークは、セーフティフィルタリング、セーフティリフレージング、Native Refusal、Harmfulness-Tag Annotated Pretrainingの4つの重要なステップで構成されています。
我々の安全事前訓練モデルでは、一般的な劣化タスクのパフォーマンスを伴わない標準LLM安全性ベンチマークにおいて、攻撃成功率を38.8%から8.4%に下げている。
論文 参考訳(メタデータ) (2025-04-23T17:58:08Z) - ALERT: A Comprehensive Benchmark for Assessing Large Language Models' Safety through Red Teaming [64.86326523181553]
ALERTは、新しいきめ細かいリスク分類に基づいて安全性を評価するための大規模なベンチマークである。
脆弱性を特定し、改善を通知し、言語モデルの全体的な安全性を高めることを目的としている。
論文 参考訳(メタデータ) (2024-04-06T15:01:47Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。