論文の概要: Inverting Trojans in LLMs
- arxiv url: http://arxiv.org/abs/2509.16203v1
- Date: Fri, 19 Sep 2025 17:59:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-22 18:18:11.272186
- Title: Inverting Trojans in LLMs
- Title(参考訳): LLMにおける逆トロイの木馬
- Authors: Zhengxing Li, Guangmingmei Yang, Jayaram Raghuram, David J. Miller, George Kesidis,
- Abstract要約: バックドア検出とインバージョンスキームは、画像などに使われるAI向けに開発された。
本稿では,3つの鍵成分を用いたトリガー反転手法を提案する。
近年の多くの研究と異なり,本手法は裏口引き起こしフレーズを確実に検出し,逆転させることが実証されている。
- 参考スコア(独自算出の注目度): 10.235298805782422
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: While effective backdoor detection and inversion schemes have been developed for AIs used e.g. for images, there are challenges in "porting" these methods to LLMs. First, the LLM input space is discrete, which precludes gradient-based search over this space, central to many backdoor inversion methods. Second, there are ~30,000^k k-tuples to consider, k the token-length of a putative trigger. Third, for LLMs there is the need to blacklist tokens that have strong marginal associations with the putative target response (class) of an attack, as such tokens give false detection signals. However, good blacklists may not exist for some domains. We propose a LLM trigger inversion approach with three key components: i) discrete search, with putative triggers greedily accreted, starting from a select list of singletons; ii) implicit blacklisting, achieved by evaluating the average cosine similarity, in activation space, between a candidate trigger and a small clean set of samples from the putative target class; iii) detection when a candidate trigger elicits high misclassifications, and with unusually high decision confidence. Unlike many recent works, we demonstrate that our approach reliably detects and successfully inverts ground-truth backdoor trigger phrases.
- Abstract(参考訳): 画像に使用されるAIに対して効果的なバックドア検出とインバージョンスキームが開発されたが、これらの手法をLLMに"移植"する上での課題がある。
第一に、LSM入力空間は離散的であり、多くのバックドア反転法の中心となる勾配に基づく探索を妨げている。
第二に、考慮すべき ~30,000^k k-タプルがあり、k は代入トリガのトークン長である。
第3に、LSMでは、攻撃の目的応答(クラス)に強い限界を持つトークンをブラックリスト化する必要がある。
しかし、良いブラックリストは一部のドメインには存在しないかもしれない。
3つのキーコンポーネントを持つLCMトリガインバージョン手法を提案する。
一 個別検索であって、選択されたシングルトンの一覧から始めて、欲求的に引き金を引いて行うこと。
二 アクティベーション空間における平均的コサイン類似性を評価することにより、候補のトリガーと、目的とするクラスからの少量のクリーンなサンプルのセットとの暗黙のブラックリストを作成すること。
三 候補のトリガーが高い誤分類を生じ、かつ、異常に高い決定の信任を生ずるとき。
近年の多くの研究と異なり,本手法は裏口引き起こしフレーズを確実に検出し,逆転させることが実証されている。
関連論文リスト
- Probe before You Talk: Towards Black-box Defense against Backdoor Unalignment for Large Language Models [17.839413035304748]
LLM(Large Language Models)に対するバックドアのアンアライメント攻撃は、隠れたトリガーを使用して、安全アライメントのステルスな妥協を可能にする。
我々は,裏口LDMを不活性化させるために,推論中にトリガサンプルを検出するブラックボックスディフェンスBEATを紹介する。
本手法は, サンプル依存目標の課題を, 反対の観点から解決する。
論文 参考訳(メタデータ) (2025-06-19T16:30:56Z) - CALM: Curiosity-Driven Auditing for Large Language Models [27.302357350862085]
本稿では,LLMを監査エージェントとして微調整するために,大規模言語モデルのための好奇心駆動型監査(CALM)を提案する。
CALMは、有名人を含む嫌悪的な完成をうまく識別し、ブラックボックス設定の下で特定の名前を引き出す入力を明らかにする。
論文 参考訳(メタデータ) (2025-01-06T13:14:34Z) - Forking Paths in Neural Text Generation [14.75166317633176]
テキスト生成の個々のトークンにまたがる不確実性のダイナミクスを表現するための新しいアプローチを開発する。
4つの領域にわたる7つのタスクにおけるLLM応答の解析に本手法を用いる。
句読点などの驚くべきものを含む、トークンをフォークする多くの例を見出す。
論文 参考訳(メタデータ) (2024-12-10T22:57:57Z) - Palisade -- Prompt Injection Detection Framework [0.9620910657090188]
大規模言語モデルは、悪意のあるインジェクション攻撃に対して脆弱である。
本稿では,新しいNLPを用いたインジェクション検出手法を提案する。
階層化された入力スクリーニングプロセスを通じて精度と最適化を強調する。
論文 参考訳(メタデータ) (2024-10-28T15:47:03Z) - Get my drift? Catching LLM Task Drift with Activation Deltas [55.75645403965326]
タスクドリフトは攻撃者がデータを流出させたり、LLMの出力に影響を与えたりすることを可能にする。
そこで, 簡易線形分類器は, 分布外テストセット上で, ほぼ完全なLOC AUCでドリフトを検出することができることを示す。
このアプローチは、プロンプトインジェクション、ジェイルブレイク、悪意のある指示など、目に見えないタスクドメインに対して驚くほどうまく一般化する。
論文 参考訳(メタデータ) (2024-06-02T16:53:21Z) - TRAP: Targeted Random Adversarial Prompt Honeypot for Black-Box Identification [41.25887364156612]
ブラックボックス認証(BBIV)の新たな指紋認証問題について述べる。
目標は、サードパーティアプリケーションがチャット機能を通じて特定のLLMを使用するかどうかを判断することである。
本稿では,TRAP (Targeted Random Adversarial Prompt) と呼ばれる,特定のLPMを識別する手法を提案する。
論文 参考訳(メタデータ) (2024-02-20T13:20:39Z) - SmoothLLM: Defending Large Language Models Against Jailbreaking Attacks [99.23352758320945]
SmoothLLMは,大規模言語モデル(LLM)に対するジェイルブレーキング攻撃を軽減するために設計された,最初のアルゴリズムである。
敵が生成したプロンプトが文字レベルの変化に対して脆弱であることから、我々の防衛はまず、与えられた入力プロンプトの複数のコピーをランダムに摂動し、対応する予測を集約し、敵の入力を検出する。
論文 参考訳(メタデータ) (2023-10-05T17:01:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。