論文の概要: GradingAttack: Attacking Large Language Models Towards Short Answer Grading Ability
- arxiv url: http://arxiv.org/abs/2602.00979v1
- Date: Sun, 01 Feb 2026 02:39:51 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-03 19:28:33.501461
- Title: GradingAttack: Attacking Large Language Models Towards Short Answer Grading Ability
- Title(参考訳): GradingAttack: 短期間の回答グレーディング能力に向けて、大規模な言語モデルを攻撃する
- Authors: Xueyi Li, Zhuoneng Zhou, Zitao Liu, Yongdong Wu, Weiqi Luo,
- Abstract要約: 大規模言語モデル(LLM)は、自動短解階調(ASAG)の顕著な可能性を示している。
敵の操作に対する脆弱性は、自動グレーディング公正性と信頼性に対する重要な懸念を引き起こす。
我々は,LSMベースのASAGモデルの脆弱性を体系的に評価する,きめ細かな敵攻撃フレームワークであるGradingAttackを紹介する。
- 参考スコア(独自算出の注目度): 12.36073220426879
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have demonstrated remarkable potential for automatic short answer grading (ASAG), significantly boosting student assessment efficiency and scalability in educational scenarios. However, their vulnerability to adversarial manipulation raises critical concerns about automatic grading fairness and reliability. In this paper, we introduce GradingAttack, a fine-grained adversarial attack framework that systematically evaluates the vulnerability of LLM based ASAG models. Specifically, we align general-purpose attack methods with the specific objectives of ASAG by designing token-level and prompt-level strategies that manipulate grading outcomes while maintaining high camouflage. Furthermore, to quantify attack camouflage, we propose a novel evaluation metric that balances attack success and camouflage. Experiments on multiple datasets demonstrate that both attack strategies effectively mislead grading models, with prompt-level attacks achieving higher success rates and token-level attacks exhibiting superior camouflage capability. Our findings underscore the need for robust defenses to ensure fairness and reliability in ASAG. Our code and datasets are available at https://anonymous.4open.science/r/GradingAttack.
- Abstract(参考訳): 大規模言語モデル (LLMs) は, 学生評価効率と教育シナリオのスケーラビリティを著しく向上させ, 自動短解格付け (ASAG) の可能性を示した。
しかし、敵の操作に対する脆弱性は、自動グレーディング公正性と信頼性に対する重大な懸念を引き起こす。
本稿では,LSMベースのASAGモデルの脆弱性を体系的に評価する,きめ細かな敵攻撃フレームワークであるGradingAttackを紹介する。
具体的には、高カモフラージュを維持しつつ、グレーディング結果を操作するトークンレベルおよびプロンプトレベル戦略を設計し、汎用攻撃手法とASAGの具体的目的を一致させる。
さらに,攻撃カモフラージュの定量化のために,攻撃成功とカモフラージュのバランスをとる新しい評価指標を提案する。
複数のデータセットの実験では、両方の攻撃戦略が、より高い成功率を達成するための即時攻撃と、優れたカモフラージュ能力を示すトークンレベルの攻撃を効果的に誤解させることを示した。
以上の結果から,ASAGの公正性と信頼性を確保するため,堅牢な防御の必要性が示唆された。
私たちのコードとデータセットはhttps://anonymous.4open.science/r/GradingAttack.orgで公開されています。
関連論文リスト
- ICL-EVADER: Zero-Query Black-Box Evasion Attacks on In-Context Learning and Their Defenses [8.57098009274006]
In-context Learning (ICL) は、大規模言語モデルを用いたテキスト分類において、強力なデータ効率のパラダイムとなっている。
In this present ICL-Evader, a novel black-box evasion attack framework which operating under a high practical zero-query threat model。
論文 参考訳(メタデータ) (2026-01-29T11:50:50Z) - AttackVLA: Benchmarking Adversarial and Backdoor Attacks on Vision-Language-Action Models [60.39655329875822]
VLA(Vision-Language-Action)モデルは、ロボットが自然言語の命令を解釈し、多様なタスクを実行することを可能にするモデルである。
このようなモデルを攻撃することへの関心は高まっているが、既存の手法の有効性は依然として不明である。
我々はVLA開発ライフサイクルに合わせて統合されたフレームワークであるAttackVLAを提案する。
論文 参考訳(メタデータ) (2025-11-15T10:30:46Z) - Sampling-aware Adversarial Attacks Against Large Language Models [52.30089653615172]
既存の敵攻撃は、通常、単一点の欲望世代において有害な反応を標的とする。
本研究では,有害な応答を抽出する目的のために,攻撃時のモデル出力の繰り返しサンプリングを行う。
既存の攻撃にサンプリングを統合することで、成功率が最大37%向上し、最大2桁の効率が向上することを示す。
論文 参考訳(メタデータ) (2025-07-06T16:13:33Z) - Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。
我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。
評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文 参考訳(メタデータ) (2025-06-06T17:33:33Z) - Checkpoint-GCG: Auditing and Attacking Fine-Tuning-Based Prompt Injection Defenses [10.08464073347558]
細調整による防御に対するホワイトボックス攻撃であるCheckpoint-GCGを導入する。
最強防衛に対する攻撃成功率(ASR)を最大96%まで達成できるチェックポイントGCGを示す。
論文 参考訳(メタデータ) (2025-05-21T16:43:17Z) - Adversarial Training for Defense Against Label Poisoning Attacks [53.893792844055106]
ラベル中毒攻撃は機械学習モデルに重大なリスクをもたらす。
本稿では,これらの脅威に対処するために,サポートベクトルマシン(SVM)に基づく新たな対角的防御戦略を提案する。
提案手法は, 様々なモデルアーキテクチャに対応し, カーネルSVMを用いた予測勾配降下アルゴリズムを用いて, 対向学習を行う。
論文 参考訳(メタデータ) (2025-02-24T13:03:19Z) - Enhancing Object Detection Robustness: Detecting and Restoring Confidence in the Presence of Adversarial Patch Attacks [2.963101656293054]
敵パッチに対するYOLOv5モデルの防御機構について検討した。
我々はSegment and Complete (SAC)、Inpainting、Latent Diffusion Modelsを含むいくつかの防衛実験を行った。
その結果, 対向パッチは平均検出信頼度を22.06%低下させることがわかった。
論文 参考訳(メタデータ) (2024-03-04T13:32:48Z) - Learn from the Past: A Proxy Guided Adversarial Defense Framework with
Self Distillation Regularization [53.04697800214848]
敵対的訓練(AT)は、ディープラーニングモデルの堅牢性を固める上で重要な要素である。
AT方式は、目標モデルの防御のために直接反復的な更新を頼りにしており、不安定な訓練や破滅的なオーバーフィッティングといった障害に頻繁に遭遇する。
汎用プロキシガイド型防衛フレームワークLAST(bf Pbf astから学ぶ)を提案する。
論文 参考訳(メタデータ) (2023-10-19T13:13:41Z) - Defending against the Label-flipping Attack in Federated Learning [5.769445676575767]
フェデレーテッド・ラーニング(FL)は、参加する仲間にデザインによる自律性とプライバシを提供する。
ラベルフリッピング(LF)攻撃(英: label-flipping, LF)は、攻撃者がラベルをめくってトレーニングデータに毒を盛る攻撃である。
本稿では、まず、ピアのローカル更新からこれらの勾配を動的に抽出する新しいディフェンスを提案する。
論文 参考訳(メタデータ) (2022-07-05T12:02:54Z) - LAS-AT: Adversarial Training with Learnable Attack Strategy [82.88724890186094]
LAS-ATと呼ばれる「学習可能な攻撃戦略」は、モデル堅牢性を改善するための攻撃戦略を自動生成することを学ぶ。
当社のフレームワークは,強靭性向上のためのトレーニングにAEを使用するターゲットネットワークと,AE生成を制御するための攻撃戦略を生成する戦略ネットワークで構成されている。
論文 参考訳(メタデータ) (2022-03-13T10:21:26Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。