論文の概要: Adversarial Attack Classification and Robustness Testing for Large Language Models for Code
- arxiv url: http://arxiv.org/abs/2506.07942v1
- Date: Mon, 09 Jun 2025 17:02:29 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-10 16:33:11.068787
- Title: Adversarial Attack Classification and Robustness Testing for Large Language Models for Code
- Title(参考訳): コード用大規模言語モデルの逆攻撃分類とロバストネステスト
- Authors: Yang Liu, Armstrong Foundjem, Foutse Khomh, Heng Li,
- Abstract要約: 本研究では,自然言語入力における逆方向の摂動がLarge Language Models for Code(LLM4Code)に与える影響について検討する。
文字、単語、文レベルにおける摂動の影響を調べ、最も影響の大きい脆弱性を特定する。
- 参考スコア(独自算出の注目度): 19.47426054151291
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have become vital tools in software development tasks such as code generation, completion, and analysis. As their integration into workflows deepens, ensuring robustness against vulnerabilities especially those triggered by diverse or adversarial inputs becomes increasingly important. Such vulnerabilities may lead to incorrect or insecure code generation when models encounter perturbed task descriptions, code, or comments. Prior research often overlooks the role of natural language in guiding code tasks. This study investigates how adversarial perturbations in natural language inputs including prompts, comments, and descriptions affect LLMs for Code (LLM4Code). It examines the effects of perturbations at the character, word, and sentence levels to identify the most impactful vulnerabilities. We analyzed multiple projects (e.g., ReCode, OpenAttack) and datasets (e.g., HumanEval, MBPP), establishing a taxonomy of adversarial attacks. The first dimension classifies the input type code, prompts, or comments while the second dimension focuses on granularity: character, word, or sentence-level changes. We adopted a mixed-methods approach, combining quantitative performance metrics with qualitative vulnerability analysis. LLM4Code models show varying robustness across perturbation types. Sentence-level attacks were least effective, suggesting models are resilient to broader contextual changes. In contrast, word-level perturbations posed serious challenges, exposing semantic vulnerabilities. Character-level effects varied, showing model sensitivity to subtle syntactic deviations.Our study offers a structured framework for testing LLM4Code robustness and emphasizes the critical role of natural language in adversarial evaluation. Improving model resilience to semantic-level disruptions is essential for secure and reliable code-generation systems.
- Abstract(参考訳): 大規模言語モデル(LLM)は、コード生成、補完、分析といったソフトウェア開発タスクにおいて重要なツールとなっている。
ワークフローへの統合が深まるにつれて、特に多様なあるいは敵対的な入力によって引き起こされる脆弱性に対する堅牢性を保証することがますます重要になる。
このような脆弱性は、モデルが混乱したタスク記述やコード、コメントに遭遇した場合、誤ったコード生成や安全でないコード生成につながる可能性がある。
先行研究は、コードタスクのガイドにおける自然言語の役割をしばしば見落としている。
本研究では,自然言語入力の摂動がLLMs for Code(LLM4Code)に与える影響について検討した。
文字、単語、文レベルにおける摂動の影響を調べ、最も影響の大きい脆弱性を特定する。
我々は、複数のプロジェクト(例:ReCode、OpenAttack)とデータセット(例:HumanEval、MBPP)を分析し、敵攻撃の分類を確立した。
第1の次元は入力の型コード、プロンプト、コメントを分類し、第2の次元は粒度(文字、単語、文レベルの変化)に焦点を当てる。
定量的なパフォーマンス指標と定性的な脆弱性分析を組み合わせた混合手法のアプローチを採用した。
LLM4Codeモデルは摂動型によって様々な堅牢性を示す。
文レベルの攻撃は最小限に効果的であり、モデルがより広い文脈の変化に対して回復力があることを示唆している。
対照的に、単語レベルの摂動は深刻な問題を引き起こし、セマンティックな脆弱性を露呈した。
我々の研究は、LLM4Codeの堅牢性をテストするための構造化されたフレームワークを提供し、敵対的評価における自然言語の重要性を強調している。
セマンティックレベルの破壊に対するモデルレジリエンスの改善は、セキュアで信頼性の高いコード生成システムにとって不可欠である。
関連論文リスト
- FLUKE: A Linguistically-Driven and Task-Agnostic Framework for Robustness Evaluation [21.850854237079595]
FLUKEは、システムの最小限のテストデータを通じてモデルロバスト性を評価するためのタスクに依存しないフレームワークである。
FLUKEの実用性は、4つの異なるNLPタスクにまたがる細調整モデルと大規模言語モデル(LLM)の両方を評価することで実証する。
論文 参考訳(メタデータ) (2025-04-24T07:12:37Z) - Breaking Focus: Contextual Distraction Curse in Large Language Models [68.4534308805202]
大規模言語モデル(LLM)の重大な脆弱性について検討する。
この現象は、セマンティック・コヒーレントだが無関係な文脈で修正された質問に対して、モデルが一貫した性能を維持することができないときに発生する。
本稿では,CDVの例を自動生成する効率的な木探索手法を提案する。
論文 参考訳(メタデータ) (2025-02-03T18:43:36Z) - Robustness of Large Language Models Against Adversarial Attacks [5.312946761836463]
GPT LLMファミリーのロバスト性に関する総合的研究を報告する。
我々は2つの異なる評価手法を用いてレジリエンスを評価する。
実験により,これらのモデルのロバスト性は著しく変化し,文字レベルと意味レベルの両方の敵攻撃に対する脆弱性の程度が変化することが示された。
論文 参考訳(メタデータ) (2024-12-22T13:21:15Z) - What You See Is Not Always What You Get: An Empirical Study of Code Comprehension by Large Language Models [0.5735035463793009]
ソースコードに隠された文字操作がLLMの動作を誤認し,人間のレビュアーには検出不能なままにしておくという,大きな言語モデル(LLM)の攻撃に対する脆弱性について検討する。
これらの攻撃には、コードリオーダー、見えないコーディング文字、コード削除、コードホモグリフが含まれる。
以上の結果より,LLMは摂動の大きさと性能に異なる負の相関性を示す一方,LLMは認識不能なコードキャラクタ攻撃に対する感受性を示すことが明らかとなった。
論文 参考訳(メタデータ) (2024-12-11T04:52:41Z) - To Err is Machine: Vulnerability Detection Challenges LLM Reasoning [8.602355712876815]
脆弱性検出という,困難なコード推論タスクを提示する。
最新のSOTA(State-of-the-art)モデルでは,脆弱性検出評価では54.5%のバランスド精度しか報告されていない。
脆弱性検出を克服するためには、新しいモデル、新しいトレーニング方法、あるいはもっと実行固有の事前トレーニングデータが必要になるかもしれない。
論文 参考訳(メタデータ) (2024-03-25T21:47:36Z) - CodeAttack: Revealing Safety Generalization Challenges of Large Language Models via Code Completion [117.178835165855]
本稿では,自然言語入力をコード入力に変換するフレームワークであるCodeAttackを紹介する。
我々の研究は、コード入力に対するこれらのモデルの新たな、普遍的な安全性の脆弱性を明らかにした。
CodeAttackと自然言語の分布ギャップが大きくなると、安全性の一般化が弱くなる。
論文 参考訳(メタデータ) (2024-03-12T17:55:38Z) - Adversarial GLUE: A Multi-Task Benchmark for Robustness Evaluation of
Language Models [86.02610674750345]
AdvGLUE(Adversarial GLUE)は、様々な種類の敵攻撃の下で、現代の大規模言語モデルの脆弱性を調査し評価するための新しいマルチタスクベンチマークである。
GLUEタスクに14の逆攻撃手法を適用してAdvGLUEを構築する。
テストしたすべての言語モデルとロバストなトレーニングメソッドは、AdvGLUEではパフォーマンスが悪く、スコアは明確な精度よりもはるかに遅れています。
論文 参考訳(メタデータ) (2021-11-04T12:59:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。