Fugu-MT 論文翻訳(概要): XOXO: Stealthy Cross-Origin Context Poisoning Attacks against AI Coding Assistants

論文の概要: XOXO: Stealthy Cross-Origin Context Poisoning Attacks against AI Coding Assistants

arxiv url: http://arxiv.org/abs/2503.14281v1
Date: Tue, 18 Mar 2025 14:20:54 GMT
ステータス: 翻訳完了
システム内更新日: 2025-03-19 16:29:13.057393
Title: XOXO: Stealthy Cross-Origin Context Poisoning Attacks against AI Coding Assistants
Title（参考訳）: XOXO:AIのコーディングアシスタントに対する攻撃を非合法に防ぐ
Authors: Adam Štorek, Mukur Gupta, Noopur Bhatt, Aditya Gupta, Janie Kim, Prashast Srivastava, Suman Jana,
Abstract要約: 本稿では,従来の分析手法と意味論的に等価な意味論に基づく新たな攻撃を提案する。これにより、攻撃者はコードを操作してバックドアを含む不正なアウトプットを生成し、非難を被害者に移すことができる。
参考スコア（独自算出の注目度）: 11.9972177330089
License: http://creativecommons.org/licenses/by/4.0/
Abstract: AI coding assistants are widely used for tasks like code generation, bug detection, and comprehension. These tools now require large and complex contexts, automatically sourced from various origins$\unicode{x2014}$across files, projects, and contributors$\unicode{x2014}$forming part of the prompt fed to underlying LLMs. This automatic context-gathering introduces new vulnerabilities, allowing attackers to subtly poison input to compromise the assistant's outputs, potentially generating vulnerable code, overlooking flaws, or introducing critical errors. We propose a novel attack, Cross-Origin Context Poisoning (XOXO), that is particularly challenging to detect as it relies on adversarial code modifications that are semantically equivalent. Traditional program analysis techniques struggle to identify these correlations since the semantics of the code remain correct, making it appear legitimate. This allows attackers to manipulate code assistants into producing incorrect outputs, including vulnerabilities or backdoors, while shifting the blame to the victim developer or tester. We introduce a novel, task-agnostic black-box attack algorithm GCGS that systematically searches the transformation space using a Cayley Graph, achieving an 83.09% attack success rate on average across five tasks and eleven models, including GPT-4o and Claude 3.5 Sonnet v2 used by many popular AI coding assistants. Furthermore, existing defenses, including adversarial fine-tuning, are ineffective against our attack, underscoring the need for new security measures in LLM-powered coding tools.
Abstract（参考訳）: AIコーディングアシスタントは、コード生成、バグ検出、理解といったタスクに広く使用されている。これらのツールは、様々な起源を持つ$\unicode{x2014}$acrossファイル、プロジェクト、コントリビュータから自動的にソースされる、大規模で複雑なコンテキストを必要とする。この自動コンテキスト収集は、新たな脆弱性を導入し、攻撃者は入力を微妙に毒殺してアシスタントの出力を損なうこと、脆弱性のあるコードを生成したり、欠陥を見落としたり、重大なエラーを発生させることができる。我々は,セマンティックに等価な逆コード修正に依存するため,特に検出が難しい新たな攻撃であるクロスオリジンコンテキストポゾン(XOXO)を提案する。従来のプログラム分析技術は、コードのセマンティクスが正しいままであり、正しいように見えるため、これらの相関関係を特定するのに苦労している。これにより、攻撃者はコードアシスタントを操作して、脆弱性やバックドアを含む不正なアウトプットを生成し、非難を被害者の開発者やテスターに移すことができる。我々は、Cayley Graphを用いて変換空間を体系的に検索し、GPT-4oやClaude 3.5 Sonnet v2を含む5つのタスクと11つのモデルで平均83.09%の攻撃成功率を達成する、新しいタスク非依存のブラックボックス攻撃アルゴリズムGCGSを導入する。さらに、敵の微調整を含む既存の防御は我々の攻撃に対して効果がなく、LLMによるコーディングツールにおける新たなセキュリティ対策の必要性を強調している。

関連論文リスト

Fooling the Decoder: An Adversarial Attack on Quantum Error Correction [49.48516314472825]
本研究では,基本的なRL曲面符号デコーダ(DeepQ)を目標とし,量子誤り訂正に対する最初の逆攻撃を生成する。メモリ実験における論理量子ビット寿命を最大5桁まで短縮する攻撃を実証する。この攻撃は、機械学習ベースのQECの感受性を強調し、堅牢なQEC手法に関するさらなる研究の重要性を強調している。
論文参考訳（メタデータ） (2025-04-28T10:10:05Z)
TPIA: Towards Target-specific Prompt Injection Attack against Code-oriented Large Language Models [21.206040279980858]
本稿では,標的特異的プロンプトインジェクション攻撃(TPIA)という,コードLLMに対する新たな攻撃パラダイムを提案する。 TPIAは悪意のある命令の情報を含む非機能的摂動を生成し、被害者のコードコンテキストに挿入する。我々のTPIAは、3つの代表的なオープンソースコードLLMと、2つの主要な商用コードLLM統合アプリケーションにうまく対応できることを示す。
論文参考訳（メタデータ） (2024-07-12T10:59:32Z)
An LLM-Assisted Easy-to-Trigger Backdoor Attack on Code Completion Models: Injecting Disguised Vulnerabilities against Strong Detection [17.948513691133037]
我々は,コード補完モデルに基づくLLM支援バックドアアタックフレームワークであるCodeBreakerを紹介した。悪意のあるペイロードを最小限の変換でソースコードに直接統合することで、CodeBreakerは現在のセキュリティ対策に挑戦する。
論文参考訳（メタデータ） (2024-06-10T22:10:05Z)
Double Backdoored: Converting Code Large Language Model Backdoors to Traditional Malware via Adversarial Instruction Tuning Attacks [15.531860128240385]
本研究では、バックドアをAI/MLドメインから従来のコンピュータマルウェアに移行するための新しいテクニックについて検討する。命令チューニングされたコードLLMのサイバーセキュリティ脆弱性を評価するためのフレームワークであるMalInstructCoderを提案する。我々は,3つの最先端の Code LLM を含むコード固有命令チューニングプロセスの活用性について,包括的調査を行う。
論文参考訳（メタデータ） (2024-04-29T10:14:58Z)
LeapFrog: The Rowhammer Instruction Skip Attack [5.285478567449658]
本稿では,LeapFrogガジェットと呼ばれる新しいタイプのRowhammerガジェットを提案する。 LeapFrogガジェットは、被害者コードがユーザまたはカーネルスタックにプログラムカウンタ(PC)値を保存するときに現れる。本研究はLeapFrogガジェットを同定する体系的なプロセスも提示する。
論文参考訳（メタデータ） (2024-04-11T16:10:16Z)
Poisoning Programs by Un-Repairing Code: Security Concerns of AI-generated Code [0.9790236766474201]
脆弱性コードの生成につながる新たなデータ中毒攻撃を特定します。次に、これらの攻撃がコード生成の最先端モデルにどのように影響するかを広範囲に評価する。
論文参考訳（メタデータ） (2024-03-11T12:47:04Z)
Weak-to-Strong Jailbreaking on Large Language Models [92.52448762164926]
大規模言語モデル(LLM)は、ジェイルブレイク攻撃に対して脆弱である。既存のジェイルブレイク法は計算コストがかかる。我々は、弱々しく強固な脱獄攻撃を提案する。
論文参考訳（メタデータ） (2024-01-30T18:48:37Z)
Vulnerabilities in AI Code Generators: Exploring Targeted Data Poisoning Attacks [9.386731514208149]
本研究では、AIコードジェネレータのセキュリティを、ターゲットとするデータ中毒戦略を考案することによって調査する。セキュリティ脆弱性を含むコードの量を増やしてトレーニングデータを汚染します。私たちの研究は、AIコードジェネレータが少量の毒にも弱いことを示しています。
論文参考訳（メタデータ） (2023-08-04T15:23:30Z)
Universal and Transferable Adversarial Attacks on Aligned Language Models [118.41733208825278]
本稿では,アライメント言語モデルに反抗的な振る舞いを生じさせる,シンプルで効果的な攻撃手法を提案する。驚いたことに、我々のアプローチによって生じる敵のプロンプトは、かなり伝達可能である。
論文参考訳（メタデータ） (2023-07-27T17:49:12Z)
Downstream-agnostic Adversarial Examples [66.8606539786026]
AdvEncoderは、事前訓練されたエンコーダに基づいて、ダウンストリームに依存しない普遍的敵の例を生成するための最初のフレームワークである。従来の逆数例とは異なり、事前訓練されたエンコーダは分類ラベルではなく特徴ベクトルを出力するのみである。その結果、攻撃者はトレーニング済みのデータセットやダウンストリームのデータセットを知らずに、ダウンストリームのタスクを攻撃できることがわかった。
論文参考訳（メタデータ） (2023-07-23T10:16:47Z)
Can AI-Generated Text be Reliably Detected? [50.95804851595018]
大規模言語モデル(LLM)は、様々なアプリケーションで非常によく機能します。盗作、偽ニュースの発生、スパムなどの活動においてこれらのモデルが誤用される可能性があることは、彼らの責任ある使用に対する懸念を引き起こしている。我々は、攻撃者の存在下で、これらのAIテキスト検出装置の堅牢性を強調テストする。
論文参考訳（メタデータ） (2023-03-17T17:53:19Z)
PoisonedEncoder: Poisoning the Unlabeled Pre-training Data in Contrastive Learning [69.70602220716718]
コントラスト学習のためのデータ中毒攻撃であるPoisonedEncoderを提案する。特に、攻撃者は未ラベルの事前訓練データに慎重に毒を盛った入力を注入する。我々は,PoisonedEncoderに対する5つの防御効果を評価し,前処理が1つ,内処理が3つ,後処理が1つであった。
論文参考訳（メタデータ） (2022-05-13T00:15:44Z)
Zero-Query Transfer Attacks on Context-Aware Object Detectors [95.18656036716972]
敵は、ディープニューラルネットワークが誤った分類結果を生成するような摂動画像を攻撃する。自然の多目的シーンに対する敵対的攻撃を防御するための有望なアプローチは、文脈整合性チェックを課すことである。本稿では,コンテキスト整合性チェックを回避可能な,コンテキスト整合性攻撃を生成するための最初のアプローチを提案する。
論文参考訳（メタデータ） (2022-03-29T04:33:06Z)
Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文参考訳（メタデータ） (2021-03-06T05:50:29Z)
Adversarial EXEmples: A Survey and Experimental Evaluation of Practical Attacks on Machine Learning for Windows Malware Detection [67.53296659361598]
EXEmplesは、比較的少ない入力バイトを摂動することで、機械学習に基づく検出をバイパスすることができる。我々は、機械学習モデルに対する過去の攻撃を包含し、一般化するだけでなく、3つの新たな攻撃を含む統一フレームワークを開発する。これらの攻撃はFull DOS、Extended、Shiftと呼ばれ、DOSヘッダをそれぞれ操作し、拡張し、第1セクションの内容を変更することで、敵のペイロードを注入する。
論文参考訳（メタデータ） (2020-08-17T07:16:57Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。