論文の概要: XOXO: Stealthy Cross-Origin Context Poisoning Attacks against AI Coding Assistants
- arxiv url: http://arxiv.org/abs/2503.14281v1
- Date: Tue, 18 Mar 2025 14:20:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-19 14:18:28.252357
- Title: XOXO: Stealthy Cross-Origin Context Poisoning Attacks against AI Coding Assistants
- Title(参考訳): XOXO:AIのコーディングアシスタントに対する攻撃を非合法に防ぐ
- Authors: Adam Štorek, Mukur Gupta, Noopur Bhatt, Aditya Gupta, Janie Kim, Prashast Srivastava, Suman Jana,
- Abstract要約: 本稿では,従来の分析手法と意味論的に等価な意味論に基づく新たな攻撃を提案する。
これにより、攻撃者はコードを操作してバックドアを含む不正なアウトプットを生成し、非難を被害者に移すことができる。
- 参考スコア(独自算出の注目度): 11.9972177330089
- License:
- Abstract: AI coding assistants are widely used for tasks like code generation, bug detection, and comprehension. These tools now require large and complex contexts, automatically sourced from various origins$\unicode{x2014}$across files, projects, and contributors$\unicode{x2014}$forming part of the prompt fed to underlying LLMs. This automatic context-gathering introduces new vulnerabilities, allowing attackers to subtly poison input to compromise the assistant's outputs, potentially generating vulnerable code, overlooking flaws, or introducing critical errors. We propose a novel attack, Cross-Origin Context Poisoning (XOXO), that is particularly challenging to detect as it relies on adversarial code modifications that are semantically equivalent. Traditional program analysis techniques struggle to identify these correlations since the semantics of the code remain correct, making it appear legitimate. This allows attackers to manipulate code assistants into producing incorrect outputs, including vulnerabilities or backdoors, while shifting the blame to the victim developer or tester. We introduce a novel, task-agnostic black-box attack algorithm GCGS that systematically searches the transformation space using a Cayley Graph, achieving an 83.09% attack success rate on average across five tasks and eleven models, including GPT-4o and Claude 3.5 Sonnet v2 used by many popular AI coding assistants. Furthermore, existing defenses, including adversarial fine-tuning, are ineffective against our attack, underscoring the need for new security measures in LLM-powered coding tools.
- Abstract(参考訳): AIコーディングアシスタントは、コード生成、バグ検出、理解といったタスクに広く使用されている。
これらのツールは、様々な起源を持つ$\unicode{x2014}$acrossファイル、プロジェクト、コントリビュータから自動的にソースされる、大規模で複雑なコンテキストを必要とする。
この自動コンテキスト収集は、新たな脆弱性を導入し、攻撃者は入力を微妙に毒殺してアシスタントの出力を損なうこと、脆弱性のあるコードを生成したり、欠陥を見落としたり、重大なエラーを発生させることができる。
我々は,セマンティックに等価な逆コード修正に依存するため,特に検出が難しい新たな攻撃であるクロスオリジンコンテキストポゾン(XOXO)を提案する。
従来のプログラム分析技術は、コードのセマンティクスが正しいままであり、正しいように見えるため、これらの相関関係を特定するのに苦労している。
これにより、攻撃者はコードアシスタントを操作して、脆弱性やバックドアを含む不正なアウトプットを生成し、非難を被害者の開発者やテスターに移すことができる。
我々は、Cayley Graphを用いて変換空間を体系的に検索し、GPT-4oやClaude 3.5 Sonnet v2を含む5つのタスクと11つのモデルで平均83.09%の攻撃成功率を達成する、新しいタスク非依存のブラックボックス攻撃アルゴリズムGCGSを導入する。
さらに、敵の微調整を含む既存の防御は我々の攻撃に対して効果がなく、LLMによるコーディングツールにおける新たなセキュリティ対策の必要性を強調している。
関連論文リスト
- TPIA: Towards Target-specific Prompt Injection Attack against Code-oriented Large Language Models [21.206040279980858]
本稿では,標的特異的プロンプトインジェクション攻撃(TPIA)という,コードLLMに対する新たな攻撃パラダイムを提案する。
TPIAは悪意のある命令の情報を含む非機能的摂動を生成し、被害者のコードコンテキストに挿入する。
我々のTPIAは、3つの代表的なオープンソースコードLLMと、2つの主要な商用コードLLM統合アプリケーションにうまく対応できることを示す。
論文 参考訳(メタデータ) (2024-07-12T10:59:32Z) - An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。
悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文 参考訳(メタデータ) (2024-06-10T22:10:05Z) - LeapFrog: The Rowhammer Instruction Skip Attack [5.285478567449658]
本稿では,LeapFrogガジェットと呼ばれる新しいタイプのRowhammerガジェットを提案する。
LeapFrogガジェットは、被害者コードがユーザまたはカーネルスタックにプログラムカウンタ(PC)値を保存するときに現れる。
本研究はLeapFrogガジェットを同定する体系的なプロセスも提示する。
論文 参考訳(メタデータ) (2024-04-11T16:10:16Z) - Poisoning Programs by Un-Repairing Code: Security Concerns of
AI-generated Code [0.9790236766474201]
脆弱性コードの生成につながる新たなデータ中毒攻撃を特定します。
次に、これらの攻撃がコード生成の最先端モデルにどのように影響するかを広範囲に評価する。
論文 参考訳(メタデータ) (2024-03-11T12:47:04Z) - PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。
敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。
AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文 参考訳(メタデータ) (2023-09-20T07:42:51Z) - Vulnerabilities in AI Code Generators: Exploring Targeted Data Poisoning
Attacks [9.386731514208149]
本研究では、AIコードジェネレータのセキュリティを、ターゲットとするデータ中毒戦略を考案することによって調査する。
セキュリティ脆弱性を含むコードの量を増やしてトレーニングデータを汚染します。
私たちの研究は、AIコードジェネレータが少量の毒にも弱いことを示しています。
論文 参考訳(メタデータ) (2023-08-04T15:23:30Z) - Universal and Transferable Adversarial Attacks on Aligned Language
Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。
驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文 参考訳(メタデータ) (2023-07-27T17:49:12Z) - Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。
盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。
我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文 参考訳(メタデータ) (2023-03-17T17:53:19Z) - PoisonedEncoder: Poisoning the Unlabeled Pre-training Data in
Contrastive Learning [69.70602220716718]
コントラスト学習のためのデータ中毒攻撃であるPoisonedEncoderを提案する。
特に、攻撃者は未ラベルの事前訓練データに慎重に毒を盛った入力を注入する。
我々は,PoisonedEncoderに対する5つの防御効果を評価し,前処理が1つ,内処理が3つ,後処理が1つであった。
論文 参考訳(メタデータ) (2022-05-13T00:15:44Z) - Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。
自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。
本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文 参考訳(メタデータ) (2022-03-29T04:33:06Z) - Adversarial EXEmples: A Survey and Experimental Evaluation of Practical
Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。
我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。
これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文 参考訳(メタデータ) (2020-08-17T07:16:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。