論文の概要: Evaluating Answer Leakage Robustness of LLM Tutors against Adversarial Student Attacks
- arxiv url: http://arxiv.org/abs/2604.18660v1
- Date: Mon, 20 Apr 2026 11:29:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-22 22:41:49.391447
- Title: Evaluating Answer Leakage Robustness of LLM Tutors against Adversarial Student Attacks
- Title(参考訳): 反対学生攻撃に対するLDMチュータの解答漏れロバスト性の評価
- Authors: Jin Zhao, Marta Knežević, Tanja Käser,
- Abstract要約: 本研究では,生徒が逆向きに振る舞うシナリオについて検討し,教師から正しい回答を得ることを目的とする。
我々は、異なるモデルファミリー、教育的に整合したモデル、マルチエージェント設計を含む、LLMベースのチューターモデルを幅広く評価する。
我々は,LLMベースの教師の回答リークを低減し,ロバスト性を高める,シンプルだが効果的な防衛戦略を提案する。
- 参考スコア(独自算出の注目度): 9.471800828517496
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) are increasingly used in education, yet their default helpfulness often conflicts with pedagogical principles. Prior work evaluates pedagogical quality via answer leakage-the disclosure of complete solutions instead of scaffolding-but typically assumes well-intentioned learners, leaving tutor robustness under student misuse largely unexplored. In this paper, we study scenarios where students behave adversarially and aim to obtain the correct answer from the tutor. We evaluate a broad set of LLM-based tutor models, including different model families, pedagogically aligned models, and a multi-agent design, under a range of adversarial student attacks. We adapt six groups of adversarial and persuasive techniques to the educational setting and use them to probe how likely a tutor is to reveal the final answer. We evaluate answer leakage robustness using different types of in-context adversarial student agents, finding that they often fail to carry out effective attacks. We therefore introduce an adversarial student agent that we fine-tune to jailbreak LLM-based tutors, which we propose as the core of a standardized benchmark for evaluating tutor robustness. Finally, we present simple but effective defense strategies that reduce answer leakage and strengthen the robustness of LLM-based tutors in adversarial scenarios.
- Abstract(参考訳): 大規模言語モデル(LLM)は、教育でますます使われているが、そのデフォルトの利便性は、教育学の原則と矛盾することが多い。
従来の研究は、解答リークによる教育的品質を評価する-足場ではなく完全な解の開示は、一般的には、よく意図された学習者を前提としており、学生の誤用による教師の頑健さは、ほとんど調査されていない。
本稿では,生徒が逆向きに振る舞うシナリオを考察し,教師から正しい回答を得ることを目的とする。
我々は,様々なモデルファミリ,教育的に整合したモデル,マルチエージェントデザインを含む,LLMベースのチューターモデルの幅広いセットを,敵対的な学生攻撃下で評価する。
我々は,6つの対角的・説得的手法を教育環境に適用し,教師が最終回答を明らかにする確率を調査する。
本研究は, 各種のコンテキスト内敵対的学生エージェントを用いて, 解答漏れの堅牢性を評価し, 効果的な攻撃を行なわなかった場合が多いことを明らかにする。
そこで我々は, ジェイルブレイクLLMベースの教師に対して, 教師の頑健性を評価するための標準ベンチマークのコアとして, 逆向きの生徒エージェントを導入する。
最後に,LLM ベースチュータの対向シナリオにおける堅牢性を向上し,応答リークを低減する,シンプルだが効果的な防御戦略を提案する。
関連論文リスト
- CASTLE: A Comprehensive Benchmark for Evaluating Student-Tailored Personalized Safety in Large Language Models [55.0103764229311]
本稿では,学生用個人安全の概念を提案し,教育理論に基づくCASTLEの構築を行う。
このベンチマークは、92,908のバイリンガルシナリオを含む15の教育安全リスクと14の学生属性をカバーしている。
論文 参考訳(メタデータ) (2026-02-05T13:13:19Z) - PATS: Personality-Aware Teaching Strategies with Large Language Model Tutors [66.56586559631516]
大型言語モデル (LLM) は教育教師としての可能性を秘めている。
しかし、異なる学習戦略は、異なる学生の個性に利益をもたらす。
それにもかかわらず、現在のLLM教育システムは生徒の性格特性を考慮に入れていない。
論文 参考訳(メタデータ) (2026-01-13T10:17:26Z) - TutorBench: A Benchmark To Assess Tutoring Capabilities Of Large Language Models [10.963195858672627]
TutorBenchは、大規模言語モデル(LLM)のコアチューリングスキルを厳格に評価するために設計されたデータセットと評価ベンチマークである。
サンプルは、(i)学生の混乱に合わせた適応的な説明を生成すること、(ii)学生の作業に対して実行可能なフィードバックを提供すること、(iii)効果的なヒント生成を通じて活発な学習を促進すること、の3つの一般的な学習課題から抽出される。
我々はTutorBench上で16個のフロンティアLLMを評価し,その性能と挙動を詳細に解析した。
論文 参考訳(メタデータ) (2025-10-03T01:41:09Z) - Teaching Language Models To Gather Information Proactively [53.85419549904644]
大規模言語モデル(LLM)は、ますます協力的なパートナーとして機能することが期待されている。
本研究では,アクティブな情報収集という新たなタスクパラダイムを導入する。
キー情報をマスキングする、部分的に特定された現実世界のタスクを生成するスケーラブルなフレームワークを設計する。
このセットアップの中核となるイノベーションは、真に新しい暗黙のユーザー情報を引き出す質問に報酬を与える、強化された微調整戦略です。
論文 参考訳(メタデータ) (2025-07-28T23:50:09Z) - From Problem-Solving to Teaching Problem-Solving: Aligning LLMs with Pedagogy using Reinforcement Learning [82.50157695987558]
大規模言語モデル(LLM)は教育を変換することができるが、直接質問応答のための最適化はしばしば効果的な教育を損なう。
オンライン強化学習(RL)に基づくアライメントフレームワークを提案する。
論文 参考訳(メタデータ) (2025-05-21T15:00:07Z) - Single-Agent vs. Multi-Agent LLM Strategies for Automated Student Reflection Assessment [16.145339327301816]
大規模言語モデル(LLM)は、学生の反射を定量的スコアに変換する。
LLMは、リフレクションアセスメントを効果的に自動化し、教育者の作業量を削減し、学生のタイムリーなサポートを可能にする。
論文 参考訳(メタデータ) (2025-04-08T06:34:15Z) - Stepwise Verification and Remediation of Student Reasoning Errors with Large Language Model Tutors [78.53699244846285]
大規模言語モデル(LLM)は、高品質なパーソナライズされた教育を全員に拡大する機会を提供する。
LLMは、学生のエラーを正確に検知し、これらのエラーに対するフィードバックを調整するのに苦労する。
教師が学生の誤りを識別し、それに基づいて回答をカスタマイズする現実世界の教育実践に触発され、我々は学生ソリューションの検証に焦点をあてる。
論文 参考訳(メタデータ) (2024-07-12T10:11:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。