論文の概要: Localizing Malicious Outputs from CodeLLM
- arxiv url: http://arxiv.org/abs/2509.17070v1
- Date: Sun, 21 Sep 2025 13:01:38 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-23 18:58:16.099661
- Title: Localizing Malicious Outputs from CodeLLM
- Title(参考訳): CodeLLMからの有害な出力のローカライズ
- Authors: Mayukh Borana, Junyi Liang, Sai Sathiesh Rajan, Sudipta Chattopadhyay,
- Abstract要約: FreqRankは、LSM出力と対応するバックドアトリガーで悪意のあるコンポーネントをローカライズするための突然変異ベースの防御である。
ランキングシステムは、この知識を活用して、入力に存在するバックドアトリガーをローカライズする。
本手法は他の防御方法よりも35~50%有効であることを示す。
- 参考スコア(独自算出の注目度): 3.51270325155256
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: We introduce FreqRank, a mutation-based defense to localize malicious components in LLM outputs and their corresponding backdoor triggers. FreqRank assumes that the malicious sub-string(s) consistently appear in outputs for triggered inputs and uses a frequency-based ranking system to identify them. Our ranking system then leverages this knowledge to localize the backdoor triggers present in the inputs. We create nine malicious models through fine-tuning or custom instructions for three downstream tasks, namely, code completion (CC), code generation (CG), and code summarization (CS), and show that they have an average attack success rate (ASR) of 86.6%. Furthermore, FreqRank's ranking system highlights the malicious outputs as one of the top five suggestions in 98% of cases. We also demonstrate that FreqRank's effectiveness scales as the number of mutants increases and show that FreqRank is capable of localizing the backdoor trigger effectively even with a limited number of triggered samples. Finally, we show that our approach is 35-50% more effective than other defense methods.
- Abstract(参考訳): 本稿では、LLM出力とそれに対応するバックドアトリガに悪意のあるコンポーネントをローカライズするための突然変異ベースの防御であるFreqRankを紹介する。
FreqRank氏は、悪意のあるサブストリングがトリガー入力の出力に一貫して現れ、周波数ベースのランキングシステムを使ってそれらを特定すると仮定している。
ランキングシステムは、この知識を活用して、入力に存在するバックドアトリガーをローカライズする。
我々は、コード補完(CC)、コード生成(CG)、コード要約(CS)の3つの下流タスクに対して、微調整またはカスタム命令によって9つの悪意あるモデルを作成し、平均攻撃成功率(ASR)が86.6%であることを示す。
さらに、FreqRankのランキングシステムは、悪意のあるアウトプットを98%のケースで上位5つの提案の1つとして強調している。
またFreqRankの有効性がミュータントの数が増えるにつれて拡大し、FreqRankは限られた数のトリガーサンプルでもバックドアトリガーを効果的に局在させることができることを示す。
最後に,本手法が他の防衛方法よりも35~50%有効であることを示す。
関連論文リスト
- Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
本手法は,強力なガードレールモデルの検出下であっても,有害なコンテンツ生成のためにバックドアを様々なLSMに効果的に注入する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Reinforcement Speculative Decoding for Fast Ranking [9.584558586988953]
大規模言語モデル (LLM) は情報検索 (IR) システムやレコメンダシステム (RS) などのランキングシステムで広く採用されている。
LLMの高速ランキング推定のための強化復号法を提案する。
論文 参考訳(メタデータ) (2025-05-23T02:25:26Z) - Gracefully Filtering Backdoor Samples for Generative Large Language Models without Retraining [16.76094864625033]
バックドア攻撃は、生成型大規模言語モデル(LLM)に対する重大なセキュリティ脅威である
GraCeFulは、周波数空間におけるサンプルワイド勾配を使用して、LLMの再トレーニングを必要とせずに、バックドアサンプルを識別する。
GraCeFulは卓越した計算効率を示し、バックドアサンプルの識別に100%のリコールとF1スコアを達成している。
論文 参考訳(メタデータ) (2024-12-03T13:43:36Z) - ASPIRER: Bypassing System Prompts With Permutation-based Backdoors in LLMs [17.853862145962292]
システムプロンプトを体系的に回避する新しいバックドアアタックを導入する。
本手法は,98.58%のクリーン精度(CACC)を維持しつつ,攻撃成功率(ASR)を99.50%まで達成する。
論文 参考訳(メタデータ) (2024-10-05T02:58:20Z) - Lazy Layers to Make Fine-Tuned Diffusion Models More Traceable [70.77600345240867]
新たな任意の任意配置(AIAO)戦略は、微調整による除去に耐性を持たせる。
拡散モデルの入力/出力空間のバックドアを設計する既存の手法とは異なり,本手法では,サンプルサブパスの特徴空間にバックドアを埋め込む方法を提案する。
MS-COCO,AFHQ,LSUN,CUB-200,DreamBoothの各データセットに関する実証研究により,AIAOの堅牢性が確認された。
論文 参考訳(メタデータ) (2024-05-01T12:03:39Z) - WPDA: Frequency-based Backdoor Attack with Wavelet Packet Decomposition [30.199136831047063]
この研究は、ディープニューラルネットワーク(DNN)ベースの画像分類、すなわちバックドア攻撃に対する新たなセキュリティ脅威を探究する。
我々はWavelet Packet Decomposition (WPD)による新しい周波数ベースのバックドアアタックを提案する。
CIFAR-10の98.12%の攻撃成功率 (ASR) により, 極めて低い毒性比0。
論文 参考訳(メタデータ) (2024-01-24T16:43:35Z) - Found in the Middle: Permutation Self-Consistency Improves Listwise Ranking in Large Language Models [63.714662435555674]
大規模言語モデル(LLM)は、文脈の使い方に位置バイアスを示す。
我々は,ブラックボックスLLMのランキングリスト出力に対して,自己整合性(permutation self-consistency)を提案する。
LLaMA v2 (70B) では GPT-3.5 では 7-18% , LLaMA v2 (70B) では 8-16% である。
論文 参考訳(メタデータ) (2023-10-11T17:59:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。