論文の概要: EduGuardBench: A Holistic Benchmark for Evaluating the Pedagogical Fidelity and Adversarial Safety of LLMs as Simulated Teachers
- arxiv url: http://arxiv.org/abs/2511.06890v1
- Date: Mon, 10 Nov 2025 09:42:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-11 21:18:45.18486
- Title: EduGuardBench: A Holistic Benchmark for Evaluating the Pedagogical Fidelity and Adversarial Safety of LLMs as Simulated Teachers
- Title(参考訳): EduGuardBench シミュレーション教師としての LLM の教育的忠実度と敵対的安全性を評価するための完全性ベンチマーク
- Authors: Yilin Jiang, Mingzi Zhang, Xuanyu Yin, Sheng Jin, Suyu Lu, Zuocan Ying, Zengyi Yu, Xiangjie Kong,
- Abstract要約: 職業シミュレーションのための大規模言語モデル(SP-LLM)は、パーソナライズされた教育において重要である。
EduGuardBenchはロールプレイングフィデリティスコア(RFS)を用いてプロのフィデリティを評価する
また、一般的な害、特に学術的不正をターゲットとしたペルソナベースの敵対的プロンプトを使用して安全性の脆弱性を調査する。
- 参考スコア(独自算出の注目度): 8.123835490773095
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models for Simulating Professions (SP-LLMs), particularly as teachers, are pivotal for personalized education. However, ensuring their professional competence and ethical safety is a critical challenge, as existing benchmarks fail to measure role-playing fidelity or address the unique teaching harms inherent in educational scenarios. To address this, we propose EduGuardBench, a dual-component benchmark. It assesses professional fidelity using a Role-playing Fidelity Score (RFS) while diagnosing harms specific to the teaching profession. It also probes safety vulnerabilities using persona-based adversarial prompts targeting both general harms and, particularly, academic misconduct, evaluated with metrics including Attack Success Rate (ASR) and a three-tier Refusal Quality assessment. Our extensive experiments on 14 leading models reveal a stark polarization in performance. While reasoning-oriented models generally show superior fidelity, incompetence remains the dominant failure mode across most models. The adversarial tests uncovered a counterintuitive scaling paradox, where mid-sized models can be the most vulnerable, challenging monotonic safety assumptions. Critically, we identified a powerful Educational Transformation Effect: the safest models excel at converting harmful requests into teachable moments by providing ideal Educational Refusals. This capacity is strongly negatively correlated with ASR, revealing a new dimension of advanced AI safety. EduGuardBench thus provides a reproducible framework that moves beyond siloed knowledge tests toward a holistic assessment of professional, ethical, and pedagogical alignment, uncovering complex dynamics essential for deploying trustworthy AI in education. See https://github.com/YL1N/EduGuardBench for Materials.
- Abstract(参考訳): 職業シミュレーションのための大規模言語モデル(SP-LLM)は、特に教師として、パーソナライズされた教育において重要である。
しかし、既存のベンチマークでは、ロールプレイングの忠実度を測定したり、教育シナリオに固有のユニークな教育上の害に対処できないため、プロフェッショナルな能力と倫理的安全性を確保することは重要な課題である。
これを解決するために、デュアルコンポーネントベンチマークであるEduGuardBenchを提案する。
ロールプレイング・フィデリティスコア(RFS)を用いて、プロのフィデリティを評価すると同時に、教職特有の害を診断する。
また、一般的な害、特に学術的な不正行為の両方をターゲットにしたペルソナベースの敵対的プロンプトを用いて安全性の脆弱性を調査し、アタック成功率(ASR)や3段階の拒絶品質評価(Refusal Quality Assessment)などの指標で評価した。
14の先行モデルに対する広範な実験により、性能の極性が明らかとなった。
推論指向モデルは一般に優れた忠実度を示すが、ほとんどのモデルで非能力が支配的な障害モードである。
敵対的なテストでは、中規模のモデルが最も脆弱で、単調な安全性の前提となる、直感的なスケーリングパラドックスが明らかになった。
最も安全なモデルは、理想的な教育拒否を提供することで、有害な要求を教育可能な瞬間に変換するのに優れている。
この能力はASRと強く相関しており、高度なAI安全性の新たな次元を明らかにしている。
そのためにEduGuardBenchは、サイロ化された知識テストを超えて、専門的、倫理的、教育的なアライメントを総合的に評価する、再現可能なフレームワークを提供する。
資料はhttps://github.com/YL1N/EduGuardBenchを参照。
関連論文リスト
- Capability-Oriented Training Induced Alignment Risk [101.37328448441208]
我々は、強化学習で訓練された言語モデルが、その報酬を最大化するために欠陥を利用することを自然に学習するかどうかを考察する。
我々の実験は、モデルがこれらの脆弱性を常に活用し、タスクの正しさや安全性を犠牲にして報酬を著しく増大させる機会論的戦略を発見していることを示している。
我々の研究結果は、将来のAIの安全作業がコンテンツモデレーションを超えて、トレーニング環境の厳格な監査と確保、および報奨メカニズム自体に拡張する必要があることを示唆している。
論文 参考訳(メタデータ) (2026-02-12T16:13:14Z) - CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models [55.0103764229311]
本稿では,学生用個人安全の概念を提案し,教育理論に基づくCASTLEの構築を行う。
このベンチマークは、92,908のバイリンガルシナリオを含む15の教育安全リスクと14の学生属性をカバーしている。
論文 参考訳(メタデータ) (2026-02-05T13:13:19Z) - Steering Externalities: Benign Activation Steering Unintentionally Increases Jailbreak Risk for Large Language Models [62.16655896700062]
活性化ステアリングは大規模言語モデル(LLM)の有用性を高める技術である
重要かつ過度に調査された安全リスクを無意識に導入することを示します。
実験によると、これらの介入は強制乗算器として機能し、ジェイルブレイクに新たな脆弱性を発生させ、標準ベンチマークで攻撃成功率を80%以上向上させる。
論文 参考訳(メタデータ) (2026-02-03T12:32:35Z) - The Shadow Self: Intrinsic Value Misalignment in Large Language Model Agents [37.75212140218036]
コントロの損失リスクを定式化し、これまで過小評価されていた内因性価値の相違(内因性VM)を識別する。
次に、このリスクを体系的に評価するシナリオ駆動フレームワークであるIMPRESSを紹介します。
我々は,21種類のLLMエージェント上での固有のVMの評価を行い,モデル間での安全性のリスクが広く見られることを発見した。
論文 参考訳(メタデータ) (2026-01-24T07:09:50Z) - GRPO Privacy Is at Risk: A Membership Inference Attack Against Reinforcement Learning With Verifiable Rewards [13.369116707284121]
Divergence-in-Behavior Attack (DIBA)は、Reinforcement Learning with Verifiable Rewards用に特別に設計された最初のメンバーシップ推論フレームワークである。
以上の結果から,DIBAは既存のベースラインを大きく上回り,約0.8AUC,高次TPR@0.1%FPRを達成した。
これは、RLVRにおけるプライバシーの脆弱性を体系的に分析する最初の研究であり、データ露出のトレーニングが行動トレースを通じて確実に推測できることを明らかにする。
論文 参考訳(メタデータ) (2025-11-18T01:51:34Z) - What's Pulling the Strings? Evaluating Integrity and Attribution in AI Training and Inference through Concept Shift [33.83306492023009]
ConceptLensは、トレーニング済みのマルチモーダルモデルを利用して、整合性の脅威を特定する汎用フレームワークである。
悪意のあるコンセプトシフトによる隠蔽広告の生成など、バイアス注入に対する脆弱性を明らかにする。
生成的コンテンツにおける社会学的バイアスを明らかにし、社会学的文脈にまたがる格差を明らかにする。
論文 参考訳(メタデータ) (2025-04-28T13:30:48Z) - Benchmarking Adversarial Robustness to Bias Elicitation in Large Language Models: Scalable Automated Assessment with LLM-as-a-Judge [1.1666234644810893]
小さなモデルは安全性においてより大きなモデルよりも優れており、トレーニングとアーキテクチャがスケール以上の意味を持つ可能性があることを示唆している。
低リソース言語を使ったジェイルブレイク攻撃や拒否抑制が効果的であるなど、敵の誘惑に対して完全に堅牢なモデルはない。
論文 参考訳(メタデータ) (2025-04-10T16:00:59Z) - PredictaBoard: Benchmarking LLM Score Predictability [50.47497036981544]
大きな言語モデル(LLM)は予測不能に失敗することが多い。
これは、安全なデプロイメントを保証する上で、大きな課題となる。
PredictaBoardは,新しいベンチマークフレームワークである。
論文 参考訳(メタデータ) (2025-02-20T10:52:38Z) - Safety Reasoning with Guidelines [63.15719512614899]
RT(Refusal Training)は、様々なアウト・オブ・ディストリビューション(OOD)のジェイルブレイク攻撃に対する一般化に苦慮している。
本稿では,クエリ毎に安全推論を行うためのトレーニングモデルを提案する。
論文 参考訳(メタデータ) (2025-02-06T13:01:44Z) - Safe to Serve: Aligning Instruction-Tuned Models for Safety and Helpfulness [0.0]
大規模言語モデル (LLM) は複雑な推論やテキスト生成において顕著な能力を示した。
LLMは、問題のある入力を誘導すると、不安全または偏りの応答を不注意に生成することができる。
本研究は、有用なコンテンツと無害コンテンツの両方を生成する言語モデルを開発する上で、重要な課題に対処する。
論文 参考訳(メタデータ) (2024-11-26T06:52:22Z) - On the Fairness, Diversity and Reliability of Text-to-Image Generative Models [68.62012304574012]
マルチモーダル生成モデルは 信頼性 公正性 誤用の可能性について 批判的な議論を巻き起こしました
埋め込み空間におけるグローバルおよびローカルな摂動に対する応答を解析し、モデルの信頼性を評価するための評価フレームワークを提案する。
提案手法は, 信頼できない, バイアス注入されたモデルを検出し, 組込みバイアスの証明をトレースするための基礎となる。
論文 参考訳(メタデータ) (2024-11-21T09:46:55Z) - Unveiling the Misuse Potential of Base Large Language Models via In-Context Learning [61.2224355547598]
大規模言語モデル(LLM)のオープンソース化は、アプリケーション開発、イノベーション、科学的進歩を加速させる。
我々の調査は、この信念に対する重大な監視を露呈している。
我々の研究は、慎重に設計されたデモを配置することにより、ベースLSMが悪意のある命令を効果的に解釈し実行できることを実証する。
論文 参考訳(メタデータ) (2024-04-16T13:22:54Z) - Co-Supervised Learning: Improving Weak-to-Strong Generalization with
Hierarchical Mixture of Experts [81.37287967870589]
我々は,一貫した生徒を統括する,一貫した一貫した教師ではなく,多様な専門教師の集合を活用することを提案する。
我々のアプローチは、古典的な階層的な専門家の混合に似ている。
提案手法は,OpenAIの弱強ベンチマークと追加のマルチドメインデータセットを用いて,視覚認識タスクにより検証する。
論文 参考訳(メタデータ) (2024-02-23T18:56:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。