論文の概要: Inverting Trojans in LLMs
- arxiv url: http://arxiv.org/abs/2509.16203v1
- Date: Fri, 19 Sep 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.272186
- Title: Inverting Trojans in LLMs
- Title(参考訳): LLMにおける逆トロイの木馬
- Authors: Zhengxing Li, Guangmingmei Yang, Jayaram Raghuram, David J. Miller, George Kesidis,
- Abstract要約: バックドア検出とインバージョンスキームは、画像などに使われるAI向けに開発された。
本稿では,3つの鍵成分を用いたトリガー反転手法を提案する。
近年の多くの研究と異なり,本手法は裏口引き起こしフレーズを確実に検出し,逆転させることが実証されている。
- 参考スコア(独自算出の注目度): 10.235298805782422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While effective backdoor detection and inversion schemes have been developed for AIs used e.g. for images, there are challenges in "porting" these methods to LLMs. First, the LLM input space is discrete, which precludes gradient-based search over this space, central to many backdoor inversion methods. Second, there are ~30,000^k k-tuples to consider, k the token-length of a putative trigger. Third, for LLMs there is the need to blacklist tokens that have strong marginal associations with the putative target response (class) of an attack, as such tokens give false detection signals. However, good blacklists may not exist for some domains. We propose a LLM trigger inversion approach with three key components: i) discrete search, with putative triggers greedily accreted, starting from a select list of singletons; ii) implicit blacklisting, achieved by evaluating the average cosine similarity, in activation space, between a candidate trigger and a small clean set of samples from the putative target class; iii) detection when a candidate trigger elicits high misclassifications, and with unusually high decision confidence. Unlike many recent works, we demonstrate that our approach reliably detects and successfully inverts ground-truth backdoor trigger phrases.
- Abstract(参考訳): 画像に使用されるAIに対して効果的なバックドア検出とインバージョンスキームが開発されたが、これらの手法をLLMに"移植"する上での課題がある。
第一に、LSM入力空間は離散的であり、多くのバックドア反転法の中心となる勾配に基づく探索を妨げている。
第二に、考慮すべき ~30,000^k k-タプルがあり、k は代入トリガのトークン長である。
第3に、LSMでは、攻撃の目的応答(クラス)に強い限界を持つトークンをブラックリスト化する必要がある。
しかし、良いブラックリストは一部のドメインには存在しないかもしれない。
3つのキーコンポーネントを持つLCMトリガインバージョン手法を提案する。
一 個別検索であって、選択されたシングルトンの一覧から始めて、欲求的に引き金を引いて行うこと。
二 アクティベーション空間における平均的コサイン類似性を評価することにより、候補のトリガーと、目的とするクラスからの少量のクリーンなサンプルのセットとの暗黙のブラックリストを作成すること。
三 候補のトリガーが高い誤分類を生じ、かつ、異常に高い決定の信任を生ずるとき。
近年の多くの研究と異なり,本手法は裏口引き起こしフレーズを確実に検出し,逆転させることが実証されている。
関連論文リスト
- ShadowLogic: Backdoors in Any Whitebox LLM [0.0]
大規模言語モデル(LLM)は様々なアプリケーションに広くデプロイされており、有害なコンテンツや制限されたコンテンツの発生を防ぐための安全策がしばしばある。
この研究は、計算グラフベースのLLMフォーマットにおける重要なセキュリティ脆弱性を強調している。
そこで我々は,非検閲ベクトルを計算グラフ表現に注入することにより,White-box LLMでバックドアを作成する方法であるShadowLogicを紹介した。
論文 参考訳(メタデータ) (2025-11-01T19:10:08Z) - Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language Models [17.839413035304748]
LLM(Large Language Models)に対するバックドアのアンアライメント攻撃は、隠れたトリガーを使用して、安全アライメントのステルスな妥協を可能にする。
我々は,裏口LDMを不活性化させるために,推論中にトリガサンプルを検出するブラックボックスディフェンスBEATを紹介する。
本手法は, サンプル依存目標の課題を, 反対の観点から解決する。
論文 参考訳(メタデータ) (2025-06-19T16:30:56Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - Your Language Model Can Secretly Write Like Humans: Contrastive Paraphrase Attacks on LLM-Generated Text Detectors [77.82885394684202]
テキスト検出を効果的に欺く訓練不要な方法である textbfContrastive textbfParaphrase textbfAttack (CoPA) を提案する。
CoPAは、大規模言語モデルによって生成される人間のような分布とは対照的に、補助的な機械的な単語分布を構築している。
我々の理論的分析は、提案された攻撃の優越性を示唆している。
論文 参考訳(メタデータ) (2025-05-21T10:08:39Z) - CALM: Curiosity-Driven Auditing for Large Language Models [27.302357350862085]
本稿では,LLMを監査エージェントとして微調整するために,大規模言語モデルのための好奇心駆動型監査(CALM)を提案する。
CALMは、有名人を含む嫌悪的な完成をうまく識別し、ブラックボックス設定の下で特定の名前を引き出す入力を明らかにする。
論文 参考訳(メタデータ) (2025-01-06T13:14:34Z) - Forking Paths in Neural Text Generation [14.75166317633176]
テキスト生成の個々のトークンにまたがる不確実性のダイナミクスを表現するための新しいアプローチを開発する。
4つの領域にわたる7つのタスクにおけるLLM応答の解析に本手法を用いる。
句読点などの驚くべきものを含む、トークンをフォークする多くの例を見出す。
論文 参考訳(メタデータ) (2024-12-10T22:57:57Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z) - AdvQDet: Detecting Query-Based Adversarial Attacks with Adversarial Contrastive Prompt Tuning [93.77763753231338]
CLIP画像エンコーダを微調整し、2つの中間対向クエリに対して同様の埋め込みを抽出するために、ACPT(Adversarial Contrastive Prompt Tuning)を提案する。
我々は,ACPTが7つの最先端クエリベースの攻撃を検出できることを示す。
また,ACPTは3種類のアダプティブアタックに対して堅牢であることを示す。
論文 参考訳(メタデータ) (2024-08-04T09:53:50Z) - Uncertainty is Fragile: Manipulating Uncertainty in Large Language Models [79.76293901420146]
大規模言語モデル(LLM)は、出力の信頼性が不可欠である様々な高い領域で採用されている。
本研究では,不確実性推定の脆弱性を調査し,攻撃の可能性を探る。
攻撃者がLSMにバックドアを埋め込むことができ、入力中の特定のトリガーによって起動されると、最終的な出力に影響を与えることなくモデルの不確実性を操作できることを示す。
論文 参考訳(メタデータ) (2024-07-15T23:41:11Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - Gradient Cuff: Detecting Jailbreak Attacks on Large Language Models by Exploring Refusal Loss Landscapes [61.916827858666906]
大規模言語モデル(LLM)は、ユーザがクエリを入力し、LLMが回答を生成する、顕著な生成AIツールになりつつある。
害と誤用を減らすため、人間のフィードバックからの強化学習のような高度な訓練技術を用いて、これらのLLMを人間の価値に合わせる努力がなされている。
近年の研究では、組込み安全ガードレールを転覆させようとする敵のジェイルブレイクの試みに対するLLMの脆弱性を強調している。
本稿では,脱獄を検知するGradient Cuffという手法を提案する。
論文 参考訳(メタデータ) (2024-03-01T03:29:54Z) - TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification [41.25887364156612]
ブラックボックス認証(BBIV)の新たな指紋認証問題について述べる。
目標は、サードパーティアプリケーションがチャット機能を通じて特定のLLMを使用するかどうかを判断することである。
本稿では,TRAP (Targeted Random Adversarial Prompt) と呼ばれる,特定のLPMを識別する手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T13:20:39Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。