論文の概要: SHAPE: Unifying Safety, Helpfulness and Pedagogy for Educational LLMs
- arxiv url: http://arxiv.org/abs/2604.22134v1
- Date: Fri, 24 Apr 2026 00:39:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-27 15:36:26.297034
- Title: SHAPE: Unifying Safety, Helpfulness and Pedagogy for Educational LLMs
- Title(参考訳): SHAPE:教育用LLMにおける安全・援助・教育の統一
- Authors: Sihang, Zhao, Kangrui Yu, Youliang Yuan, Pinjia He, Hongyi Wen,
- Abstract要約: 本稿では,クエリから必要不可欠な概念を推論し,マイナリーギャップを特定し,明示的なゲーティングによる指導と問題解決の間の経路を生成するグラフ拡張型チューリングパイプラインを提案する。
提案手法は,2つの教育的ジェイルブレイク設定下での安全性を著しく向上すると同時に,同一評価プロトコル下でのニアシーリング支援性を維持した。
- 参考スコア(独自算出の注目度): 20.344308037984536
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have been widely explored in educational scenarios. We identify a critical vulnerability in current educational LLMs, pedagogical jailbreaks, where students use answer-inducing prompts to elicit solutions rather than scaffolded instructions. To enable systematic study, we unify and formalize safe, helpful, and pedagogical behaviors with a knowledge-mastery graph and introduce SHAPE, a benchmark of 9,087 student-question pairs for evaluating tutoring behavior under adversarial pressure. We propose a graph-augmented tutoring pipeline that infers prerequisite concepts from queries, identifies mastery gaps, and routes generation between instructing and problem-solving via explicit gating. Experiments across multiple LLMs show that our method yields significantly improved safety under two pedagogical jailbreak settings, while maintaining near-ceiling helpfulness under the same evaluation protocol. Our code and data are available at https://github.com/MAPS-research/SHaPE
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育シナリオにおいて広く研究されている。
現在,教育用LLM,教育用ジェイルブレイクでは,学生が解答誘導プロンプトを用いて,足場による指示ではなく,解答を導き出すという重大な脆弱性が指摘されている。
組織的な研究を可能にするために,我々は,ナレッジマスターグラフを用いて安全で有用な教育行動の統一と形式化を行い,9,087対の学生探究のベンチマークであるSHAPEを導入し,対向的な圧力下での学習行動を評価する。
本稿では,クエリから必要不可欠な概念を推論し,マイナリーギャップを特定し,明示的なゲーティングによる指導と問題解決の間の経路を生成するグラフ拡張型チューリングパイプラインを提案する。
複数のLCMを対象とした実験により,本手法は2つの教育的ジェイルブレイク設定下での安全性を向上し,同時に,同一評価プロトコル下でのニアシーリング支援性を維持した。
私たちのコードとデータはhttps://github.com/MAPS-research/SHaPEで公開されています。
関連論文リスト
- Evaluating Answer Leakage Robustness of LLM Tutors against Adversarial Student Attacks [9.471800828517496]
本研究では,生徒が逆向きに振る舞うシナリオについて検討し,教師から正しい回答を得ることを目的とする。
我々は、異なるモデルファミリー、教育的に整合したモデル、マルチエージェント設計を含む、LLMベースのチューターモデルを幅広く評価する。
我々は,LLMベースの教師の回答リークを低減し,ロバスト性を高める,シンプルだが効果的な防衛戦略を提案する。
論文 参考訳(メタデータ) (2026-04-20T11:29:22Z) - Evaluating LLMs for Answering Student Questions in Introductory Programming Courses [0.0]
本研究では,CS1プログラミングコースにおける学生の質問に答える上で,大規模言語モデルの安全かつ効果的に支援する能力について検討する。
従来のテキストマッチングメトリクスは、オープンエンドの教育応答を評価するには不十分であるため、独自のLCM-as-a-Judgeメトリックを開発し、検証した。
以上の結果から,ジェミニ3フラッシュなどのモデルが典型的な教育者応答の品質基準を超越し,専門家の教育基準と高い整合性が得られることが示唆された。
論文 参考訳(メタデータ) (2026-03-30T11:22:58Z) - The Unlearning Mirage: A Dynamic Framework for Evaluating LLM Unlearning [54.67958855362658]
複雑な構造化クエリを用いたアンラーニングテストを強調する動的フレームワークを提案する。
提案手法はまず,対象モデル(事前学習)から知識を抽出し,単純なクエリからマルチホップチェーンまで,対象プローブを構築する。
本フレームワークは,テストセットを手作業で構築することなく,非学習手法の実用的でスケーラブルな評価を可能にする。
論文 参考訳(メタデータ) (2026-03-11T19:51:33Z) - CoDAE: Adapting Large Language Models for Education via Chain-of-Thought Data Augmentation [8.901227918730562]
大規模言語モデル(LLM)は、スケーラビリティとパーソナライズされた命令の可能性のため、AIチューターとしてますます採用されている。
我々は、Chain-of-Thoughtデータ拡張を通じてLLMを教育用途に適用するフレームワークであるCoDAEを紹介する。
学生とChatGPTをベースとした教師との現実世界の対話を収集し,CoTを駆使して,ステップバイステップの推論と教育的に整合した指導を促進する。
論文 参考訳(メタデータ) (2025-08-11T18:13:31Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - Robustness via Referencing: Defending against Prompt Injection Attacks by Referencing the Executed Instruction [68.6543680065379]
大型言語モデル(LLM)はインジェクション攻撃に弱い。
本研究では,LLMの命令追従能力を抑えるのではなく,新たな防御手法を提案する。
論文 参考訳(メタデータ) (2025-04-29T07:13:53Z) - Soft Prompting for Unlearning in Large Language Models [11.504012974208466]
この研究は、データ保護規制を動機とした大規模言語モデルのための機械学習の研究に焦点をあてる。
我々はtextbfUntextbflearning (SPUL) のための textbfSoft textbfPrompting フレームワークを提案する。
本研究では,提案手法の厳密な評価を行い,SPULが実用性と忘れとのトレードオフを大幅に改善できることを示す。
論文 参考訳(メタデータ) (2024-06-17T19:11:40Z) - Intention Analysis Makes LLMs A Good Jailbreak Defender [79.4014719271075]
我々は,シンプルかつ高能率な防衛戦略,すなわち意図分析(mathbbIA$)を提示する。
$mathbbIA$ は LLM 固有の自己修正をトリガーし、2段階のプロセスを通じて能力を向上させる。
さまざまなjailbreakベンチマークの実験によると、$mathbbIA$は一貫して応答の有害性を著しく低減できる。
論文 参考訳(メタデータ) (2024-01-12T13:15:05Z) - From Language Modeling to Instruction Following: Understanding the Behavior Shift in LLMs after Instruction Tuning [63.63840740526497]
そこで本研究では,本質的な変化に着目した事前学習モデルの調整方法について検討する。
次に、事前訓練されたモデルと命令調整されたモデルから導かれた説明を比較することで、命令チューニングの影響について研究する。
この結果から,指導指導の3つの重要な影響が明らかになった。
論文 参考訳(メタデータ) (2023-09-30T21:16:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。