Fugu-MT 論文翻訳(概要): Generalized Adversarial Code-Suggestions: Exploiting Contexts of LLM-based Code-Completion

論文の概要: Generalized Adversarial Code-Suggestions: Exploiting Contexts of LLM-based Code-Completion

arxiv url: http://arxiv.org/abs/2410.10526v1
Date: Mon, 14 Oct 2024 14:06:05 GMT
ステータス: 翻訳完了
システム内更新日: 2024-10-29 21:05:04.663657
Title: Generalized Adversarial Code-Suggestions: Exploiting Contexts of LLM-based Code-Completion
Title（参考訳）: 一般化された敵対的コード提案:LLMに基づくコード補完の爆発的文脈
Authors: Karl Rubel, Maximilian Noppel, Christian Wressnegger,
Abstract要約: 逆のコード提案は、データ中毒によって導入することができ、したがって、モデル作成者が無意識に行うことができる。本稿では、このような攻撃を一般化した定式化を行い、この領域における関連する研究を創出し、拡張する。後者は新規でフレキシブルな攻撃戦略を生み出し、敵は特定のユーザーグループに対して最適なトリガーパターンを任意に選択できる。
参考スコア（独自算出の注目度）: 4.940253381814369
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: While convenient, relying on LLM-powered code assistants in day-to-day work gives rise to severe attacks. For instance, the assistant might introduce subtle flaws and suggest vulnerable code to the user. These adversarial code-suggestions can be introduced via data poisoning and, thus, unknowingly by the model creators. In this paper, we provide a generalized formulation of such attacks, spawning and extending related work in this domain. This formulation is defined over two components: First, a trigger pattern occurring in the prompts of a specific user group, and, second, a learnable map in embedding space from the prompt to an adversarial bait. The latter gives rise to novel and more flexible targeted attack-strategies, allowing the adversary to choose the most suitable trigger pattern for a specific user-group arbitrarily, without restrictions on the pattern's tokens. Our directional-map attacks and prompt-indexing attacks increase the stealthiness decisively. We extensively evaluate the effectiveness of these attacks and carefully investigate defensive mechanisms to explore the limits of generalized adversarial code-suggestions. We find that most defenses unfortunately offer little protection only.
Abstract（参考訳）: 便利だが、日々の作業でLLM駆動のコードアシスタントに頼ると、深刻な攻撃が発生する。例えば、アシスタントは微妙な欠陥を導入し、脆弱性のあるコードをユーザに提案する。これらの逆のコード提案は、データ中毒によって導入することができ、したがって、モデル作成者が無知にすることができる。本稿では、このような攻撃を一般化した定式化を行い、この領域における関連する研究を創出し、拡張する。この定式化は2つのコンポーネントで定義されている: まず、特定のユーザグループのプロンプトで発生するトリガーパターン、次に、プロンプトから逆のベイトへの埋め込み空間における学習可能なマップ。後者は新規でフレキシブルな攻撃戦略を生み出し、敵はパターンのトークンを制限することなく、特定のユーザグループに対して最適なトリガーパターンを任意に選択できる。我々の方向マップ攻撃と即時インデクシング攻撃は、決定的にステルスネスを高めます。本研究は,これらの攻撃の有効性を広く評価し,汎用コードサジェストの限界を探索するための防御機構を慎重に検討する。残念なことに、ほとんどの防衛は、ほとんど保護を提供していない。

関連論文リスト

Benchmarking Misuse Mitigation Against Covert Adversaries [80.74502950627736]
既存の言語モデルの安全性評価は、オーバースト攻撃と低レベルのタスクに重点を置いている。我々は、隠蔽攻撃と対応する防御の評価を自動化するデータ生成パイプラインである、ステートフルディフェンスのためのベンチマーク(BSD)を開発した。評価の結果,分解攻撃は有効な誤用防止剤であり,その対策としてステートフルディフェンスを強調した。
論文参考訳（メタデータ） (2025-06-06T17:33:33Z)
To Protect the LLM Agent Against the Prompt Injection Attack with Polymorphic Prompt [5.8935359767204805]
本稿では,ポリモルフィック・プロンプト・アセンブラという,新しい軽量防衛機構を提案する。アプローチは、インジェクションのインジェクションがシステムプロンプトの構造を推測し、壊す必要があるという洞察に基づいている。 PPAは攻撃者がプロンプト構造を予測するのを防ぎ、性能を損なうことなくセキュリティを向上させる。
論文参考訳（メタデータ） (2025-06-06T04:50:57Z)
UniGuardian: A Unified Defense for Detecting Prompt Injection, Backdoor Attacks and Adversarial Attacks in Large Language Models [30.139590566956077]
大規模言語モデル(LLM)は、迅速なインジェクション、バックドアアタック、敵攻撃のような攻撃に対して脆弱である。我々は,LLMにおける即時注入,バックドア攻撃,敵攻撃を検出するために設計された,最初の統一防御機構であるUniGuardianを提案する。
論文参考訳（メタデータ） (2025-02-18T18:59:00Z)
Gandalf the Red: Adaptive Security for LLMs [2.9422902813085665]
大規模言語モデル(LLM)アプリケーションにおける即時攻撃に対する防衛の現在の評価は、敵の行動の動的性質と、制限された防御によって正統なユーザに対して課されるユーザビリティの罰の2つの重要な要素を見落としている。攻撃者を正当なユーザから明確に分離し、マルチステップインタラクションをモデル化し、最適化可能な形式でセキュリティユーティリティを表現するD-SECを提案する。
論文参考訳（メタデータ） (2025-01-14T08:30:49Z)
Hallucinating AI Hijacking Attack: Large Language Models and Malicious Code Recommenders [0.0]
研究者は、人気のあるコードリポジトリで悪意のあるコードに対して、コピーコードや幻覚されたAIレコメンデーションを導入するための敵の可能性を構築し、評価する。 OpenAI, Google, Anthropicの基本的な大規模言語モデル(LLM)は、有害な振る舞いと有害な文字列の両方に対して保護する。我々は、この攻撃を、以前の文脈シフトに関する研究と比較し、マルウェア文学における「土地から逃れる」攻撃の新たなバージョンとして攻撃面を対比した。
論文参考訳（メタデータ） (2024-10-09T01:36:25Z)
TAPI: Towards Target-Specific and Adversarial Prompt Injection against Code LLMs [27.700010465702842]
本稿では,新たな攻撃パラダイム,すなわち,コードLLMに対するターゲット固有および対向的プロンプトインジェクション(TAPI)を提案する。 TAPIは悪意のある命令に関する情報を含む読めないコメントを生成し、それらを外部ソースコードのトリガーとして隠す。 CodeGeexやGithub Copilotなど、デプロイされたコード補完統合アプリケーションに対する攻撃に成功しました。
論文参考訳（メタデータ） (2024-07-12T10:59:32Z)
Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文参考訳（メタデータ） (2024-05-28T19:16:17Z)
BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文参考訳（メタデータ） (2023-11-20T02:21:49Z)
AutoDAN: Interpretable Gradient-Based Adversarial Attacks on Large Language Models [55.748851471119906]
LLM(Large Language Models)の安全性の整合性は、手動のジェイルブレイク攻撃や(自動)敵攻撃によって損なわれる可能性がある。最近の研究は、これらの攻撃に対する防御が可能であることを示唆している。敵攻撃は無限だが読めないジベリッシュプロンプトを生成し、難易度に基づくフィルタによって検出できる。両攻撃の強度をマージする,解釈可能な勾配に基づく対向攻撃であるAutoDANを導入する。
論文参考訳（メタデータ） (2023-10-23T17:46:07Z)
PRAT: PRofiling Adversarial aTtacks [52.693011665938734]
PRofiling Adversarial aTacks (PRAT) の新たな問題点について紹介する。敵対的な例として、PRATの目的は、それを生成するのに使用される攻撃を特定することである。 AIDを用いてPRATの目的のための新しいフレームワークを考案する。
論文参考訳（メタデータ） (2023-09-20T07:42:51Z)
Contributor-Aware Defenses Against Adversarial Backdoor Attacks [2.830541450812474]
敵のバックドア攻撃は特定の事例を狙った誤分類を行う能力を示した本稿では,多元的,潜在的に敵対的なデータソースの存在下で学習するための,コントリビュータを意識したユニバーサル・ディフェンス・フレームワークを提案する。本研究は,複数の同時敵からの敵のバックドア攻撃に対するフレームワークの堅牢性を示す実証的研究である。
論文参考訳（メタデータ） (2022-05-28T20:25:34Z)
ROOM: Adversarial Machine Learning Attacks Under Real-Time Constraints [3.042299765078767]
オフラインコンポーネントがオンラインアルゴリズムのウォームアップにどのように役立つのかを示す。本稿では,このようなリアルタイム対向攻撃を支援するために,リアルタイム制約下で対向雑音をどうやって生成するかという問題を紹介する。
論文参考訳（メタデータ） (2022-01-05T14:03:26Z)
Towards Defending against Adversarial Examples via Attack-Invariant Features [147.85346057241605]
ディープニューラルネットワーク(DNN)は敵の雑音に弱い。敵の強靭性は、敵の例を利用して改善することができる。目に見えない種類の敵の例に基づいて訓練されたモデルは、一般的に、目に見えない種類の敵の例にうまく一般化できない。
論文参考訳（メタデータ） (2021-06-09T12:49:54Z)
Hidden Backdoor Attack against Semantic Segmentation Models [60.0327238844584]
Emphbackdoor攻撃は、深層ニューラルネットワーク(DNN)に隠れたバックドアを埋め込み、トレーニングデータに毒を盛ることを目的としている。我々は,対象ラベルを画像レベルではなくオブジェクトレベルから扱う,新たな攻撃パラダイムであるemphfine-fine-grained attackを提案する。実験により、提案手法はわずかなトレーニングデータだけを毒殺することでセマンティックセグメンテーションモデルを攻撃することに成功した。
論文参考訳（メタデータ） (2021-03-06T05:50:29Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。