論文の概要: How to Trick Your AI TA: A Systematic Study of Academic Jailbreaking in LLM Code Evaluation
- arxiv url: http://arxiv.org/abs/2512.10415v1
- Date: Thu, 11 Dec 2025 08:28:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-12 16:15:42.278647
- Title: How to Trick Your AI TA: A Systematic Study of Academic Jailbreaking in LLM Code Evaluation
- Title(参考訳): AI TAをトリックする方法: LLMコード評価における学術的ジェイルブレイクの体系的研究
- Authors: Devanshu Sahoo, Vasudev Majhi, Arjun Neekhra, Yash Sinha, Murari Mandal, Dhruv Kumar,
- Abstract要約: 大規模言語モデル(LLM)をコード評価の自動判断として使用することは、学術的環境においてますます普及しつつある。
しかし、その信頼性は、不正な学習上の利点を誘発し、保存されていない学術的優位性を確保するために、敵対的促進戦略を採用する学生によって損なわれる可能性がある。
本稿では,LLMに基づく自動コード評価器を学術的に初めて大規模に研究した。
- 参考スコア(独自算出の注目度): 7.743292557234699
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: The use of Large Language Models (LLMs) as automatic judges for code evaluation is becoming increasingly prevalent in academic environments. But their reliability can be compromised by students who may employ adversarial prompting strategies in order to induce misgrading and secure undeserved academic advantages. In this paper, we present the first large-scale study of jailbreaking LLM-based automated code evaluators in academic context. Our contributions are: (i) We systematically adapt 20+ jailbreaking strategies for jailbreaking AI code evaluators in the academic context, defining a new class of attacks termed academic jailbreaking. (ii) We release a poisoned dataset of 25K adversarial student submissions, specifically designed for the academic code-evaluation setting, sourced from diverse real-world coursework and paired with rubrics and human-graded references, and (iii) In order to capture the multidimensional impact of academic jailbreaking, we systematically adapt and define three jailbreaking metrics (Jailbreak Success Rate, Score Inflation, and Harmfulness). (iv) We comprehensively evalulate the academic jailbreaking attacks using six LLMs. We find that these models exhibit significant vulnerability, particularly to persuasive and role-play-based attacks (up to 97% JSR). Our adversarial dataset and benchmark suite lay the groundwork for next-generation robust LLM-based evaluators in academic code assessment.
- Abstract(参考訳): 大規模言語モデル(LLM)をコード評価の自動判断として使用することは、学術的環境においてますます普及しつつある。
しかし、その信頼性は、不正な学習上の利点を誘発し、保存されていない学術的優位性を確保するために、敵対的促進戦略を採用する学生によって損なわれる可能性がある。
本稿では,LLMをベースとした自動コード評価器を学術的に初めて大規模に研究した。
私たちの貢献は次のとおりです。
i) 学術的文脈でAIコード評価器をジェイルブレイクするための20以上のジェイルブレイク戦略を体系的に適用し, 学術的ジェイルブレイクと呼ばれる新たな攻撃方法を定義した。
(二)様々な現実世界の講習会から得られた学術的コード評価の設定に特化して設計された25Kの反対学生応募の有毒なデータセットを公開し、かつ、ルーブリックと人間段階の参考書を組み合わせて公開する。
3) 学術的ジェイルブレイクの多次元的影響を捉え, 3つのジェイルブレイク指標(ジェイルブレイク成功率, スコアインフレーション, ハームフルネス)を体系的に適用し, 定義する。
(4)6個のLDMを用いて,学術的ジェイルブレイク攻撃を包括的に評価した。
これらのモデルは、特に説得力のあるロールプレイベースの攻撃(最大97%のJSR)に対して、重大な脆弱性を示します。
我々は,学術的コードアセスメントにおいて,LLMをベースとした次世代のロバストな評価ツールの基盤となるデータセットとベンチマークスイートについて検討した。
関連論文リスト
- Guarding the Guardrails: A Taxonomy-Driven Approach to Jailbreak Detection [1.8374319565577155]
脱獄技術は、大規模言語モデルの安全性に重大な脅威をもたらす。
ジェイルブレイク技術の有効性の理解を深めるために,構造化されたレッドチームチャレンジを実施した。
我々は、50のジェイルブレイク戦略の包括的な階層的な分類法を開発し、以前の分類を7つの広い家族に集約し拡張した。
論文 参考訳(メタデータ) (2025-10-14T12:34:41Z) - ArtPerception: ASCII Art-based Jailbreak on LLMs with Recognition Pre-test [1.960444962205579]
ArtPerceptionは、ASCIIアートを戦略的に活用し、最先端(SOTA)LLMのセキュリティ対策を回避した、新しいブラックボックスジェイルブレイクフレームワークである。
フェーズ1は、ASCIIアート認識のための最適なパラメータを経験的に決定するために、1回、モデル固有の事前試験を行う。
フェーズ2は、これらの洞察を活用して、非常に効率的でワンショットの悪意のあるジェイルブレイク攻撃を起動する。
論文 参考訳(メタデータ) (2025-10-11T16:28:37Z) - Cannot See the Forest for the Trees: Invoking Heuristics and Biases to Elicit Irrational Choices of LLMs [83.11815479874447]
本研究では,人間の認知における認知的分解と偏見に触発された新しいジェイルブレイク攻撃フレームワークを提案する。
我々は、悪意のあるプロンプトの複雑さと関連バイアスを減らし、認知的分解を用いて、プロンプトを再編成する。
また、従来の二分的成功または失敗のパラダイムを超越したランキングベースの有害度評価指標も導入する。
論文 参考訳(メタデータ) (2025-05-03T05:28:11Z) - A Domain-Based Taxonomy of Jailbreak Vulnerabilities in Large Language Models [6.946931840176725]
この研究は特に、jailbreakの脆弱性の課題に焦点を当てている。
大規模な言語モデルの訓練領域に根ざした新しいジェイルブレイク攻撃の分類を導入している。
論文 参考訳(メタデータ) (2025-04-07T12:05:16Z) - Layer-Level Self-Exposure and Patch: Affirmative Token Mitigation for Jailbreak Attack Defense [55.77152277982117]
私たちは、jailbreak攻撃から防御するために設計された方法であるLayer-AdvPatcherを紹介します。
私たちは、自己拡張データセットを通じて、大規模言語モデル内の特定のレイヤにパッチを適用するために、未学習の戦略を使用します。
我々の枠組みは、脱獄攻撃の有害性と攻撃の成功率を減らす。
論文 参考訳(メタデータ) (2025-01-05T19:06:03Z) - AutoJailbreak: Exploring Jailbreak Attacks and Defenses through a Dependency Lens [83.08119913279488]
本稿では,ジェイルブレイク攻撃と防衛技術における依存関係の体系的解析について述べる。
包括的な、自動化された、論理的な3つのフレームワークを提案します。
このアンサンブル・ジェイルブレイク・アタックと防衛の枠組みは,既存の研究を著しく上回る結果となった。
論文 参考訳(メタデータ) (2024-06-06T07:24:41Z) - JailbreakBench: An Open Robustness Benchmark for Jailbreaking Large Language Models [123.66104233291065]
ジェイルブレイク攻撃は、大きな言語モデル(LLM)が有害、非倫理的、またはその他の不快なコンテンツを生成する原因となる。
これらの攻撃を評価することは、現在のベンチマークと評価テクニックの収集が適切に対処していない、多くの課題を提示します。
JailbreakBenchは、以下のコンポーネントを備えたオープンソースのベンチマークである。
論文 参考訳(メタデータ) (2024-03-28T02:44:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。