Fugu-MT 論文翻訳(概要): SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems

論文の概要: SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems

arxiv url: http://arxiv.org/abs/2603.17373v1
Date: Wed, 18 Mar 2026 05:33:50 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-19 18:32:57.522387
Title: SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems
Title（参考訳）: SafeTutors:AIチューニングシステムにおける教育的安全性のベンチマーク
Authors: Rima Hazra, Bikram Ghuku, Ilona Marchenko, Yaroslava Tokarieva, Sayan Layek, Somnath Banerjee, Julia Stoyanovich, Mykola Pechenizkiy,
Abstract要約: SafeTutorsは、数学、物理学、化学における安全性と教育を共同で評価するベンチマークである。スケールは確実に役に立ちませんし、マルチターンダイアログは振る舞いを悪化させ、教育上の失敗は17.7%から77.8%に上昇します。ハームは主題によっても異なるため、緩和は規律を意識する必要があり、シングルターンの"セーフ/ヘルパフル"の結果は、拡張された相互作用よりも体系的な家庭教師の失敗を隠蔽することができる。
参考スコア（独自算出の注目度）: 28.55608350602746
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large language models are rapidly being deployed as AI tutors, yet current evaluation paradigms assess problem-solving accuracy and generic safety in isolation, failing to capture whether a model is simultaneously pedagogically effective and safe across student-tutor interaction. We argue that tutoring safety is fundamentally different from conventional LLM safety: the primary risk is not toxic content but the quiet erosion of learning through answer over-disclosure, misconception reinforcement, and the abdication of scaffolding. To systematically study this failure mode, we introduce SafeTutors, a benchmark that jointly evaluates safety and pedagogy across mathematics, physics, and chemistry. SafeTutors is organized around a theoretically grounded risk taxonomy comprising 11 harm dimensions and 48 sub-risks drawn from learning-science literature. We uncover that all models show broad harm; scale doesn't reliably help; and multi-turn dialogue worsens behavior, with pedagogical failures rising from 17.7% to 77.8%. Harms also vary by subject, so mitigations must be discipline-aware, and single-turn "safe/helpful" results can mask systematic tutor failure over extended interaction.
Abstract（参考訳）: 大規模な言語モデルは、AIチューターとして急速にデプロイされているが、現在の評価パラダイムは、問題解決の正確さと分離時の一般的な安全性を評価している。学習の安全性は従来のLLMの安全性とは根本的に異なる: 主なリスクは有害な内容ではなく、解答の過剰開示、誤解の強化、足場への退避による学習の静かな侵食である。この障害モードを体系的に研究するために,数学,物理学,化学の安全と教育を共同で評価するベンチマークであるSafeTutorsを導入する。 SafeTutorsは、11の有害次元と48のサブリスクからなる理論的に根拠付けられたリスク分類に基づいて構成されている。スケールは確実に役に立ちませんし、マルチターンダイアログは振る舞いを悪化させ、教育上の失敗は17.7%から77.8%に上昇します。ハームは主題によっても異なるため、緩和は規律を意識する必要があり、シングルターンの"セーフ/ヘルパフル"の結果は、拡張された相互作用よりも体系的な家庭教師の失敗を隠蔽することができる。

論文の概要: SafeTutors: Benchmarking Pedagogical Safety in AI Tutoring Systems

関連論文リスト