論文の概要: Trojan Detection in Large Language Models: Insights from The Trojan Detection Challenge
- arxiv url: http://arxiv.org/abs/2404.13660v1
- Date: Sun, 21 Apr 2024 13:31:16 GMT
- ステータス: 処理完了
- システム内更新日: 2024-04-23 18:01:50.389467
- Title: Trojan Detection in Large Language Models: Insights from The Trojan Detection Challenge
- Title(参考訳): 大規模言語モデルにおけるトロイの木馬検出:トロイの木馬検出の課題から
- Authors: Narek Maloyan, Ekansh Verma, Bulat Nutfullin, Bislan Ashinov,
- Abstract要約: 大規模言語モデル(LLM)は、様々な領域で顕著な機能を示しているが、トロイの木馬やバックドア攻撃に対する脆弱性は、重大なセキュリティリスクを引き起こす。
本稿では,トロイの木馬検出コンペティション2023(TDC2023)から得られた課題と知見について考察する。
本研究では,意図しないトリガーと意図しないトリガーの区別の難しさと,実世界のシナリオにおけるリバースエンジニアリングトロイの木馬の実現可能性について検討する。
- 参考スコア(独自算出の注目度): 0.056247917037481096
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Language Models (LLMs) have demonstrated remarkable capabilities in various domains, but their vulnerability to trojan or backdoor attacks poses significant security risks. This paper explores the challenges and insights gained from the Trojan Detection Competition 2023 (TDC2023), which focused on identifying and evaluating trojan attacks on LLMs. We investigate the difficulty of distinguishing between intended and unintended triggers, as well as the feasibility of reverse engineering trojans in real-world scenarios. Our comparative analysis of various trojan detection methods reveals that achieving high Recall scores is significantly more challenging than obtaining high Reverse-Engineering Attack Success Rate (REASR) scores. The top-performing methods in the competition achieved Recall scores around 0.16, comparable to a simple baseline of randomly sampling sentences from a distribution similar to the given training prefixes. This finding raises questions about the detectability and recoverability of trojans inserted into the model, given only the harmful targets. Despite the inability to fully solve the problem, the competition has led to interesting observations about the viability of trojan detection and improved techniques for optimizing LLM input prompts. The phenomenon of unintended triggers and the difficulty in distinguishing them from intended triggers highlights the need for further research into the robustness and interpretability of LLMs. The TDC2023 has provided valuable insights into the challenges and opportunities associated with trojan detection in LLMs, laying the groundwork for future research in this area to ensure their safety and reliability in real-world applications.
- Abstract(参考訳): 大規模言語モデル(LLM)は、様々な領域で顕著な機能を示しているが、トロイの木馬やバックドア攻撃に対する脆弱性は、重大なセキュリティリスクを引き起こす。
本稿では,LLMに対するトロイの木馬攻撃の特定と評価を目的としたトロイの木馬検出コンペティション2023(TDC2023)の課題と知見について検討する。
本研究では,意図しないトリガーと意図しないトリガーの区別の難しさと,実世界のシナリオにおけるリバースエンジニアリングトロイの木馬の実現可能性について検討する。
様々なトロイの木馬検出法の比較分析により,高いリコール率を達成することは,高いリバースエンジニアリングアタック成功率(REASR)を得るよりもはるかに困難であることが判明した。
競争におけるトップパフォーマンスの手法は、与えられたトレーニングプレフィックスに似た分布からランダムに文をサンプリングする単純なベースラインに匹敵する、約0.16のリコールスコアを達成した。
この発見は、有害な標的のみを考慮し、モデルに挿入されたトロイの木馬の検出可能性と回復可能性に関する疑問を提起する。
問題を完全に解決できないにもかかわらず、競合はトロイの木馬検出の生存可能性に関する興味深い観察とLLM入力プロンプトの最適化技術の改善につながった。
意図しないトリガーの現象と、意図したトリガーと区別することの難しさは、LSMの堅牢性と解釈可能性に関するさらなる研究の必要性を浮き彫りにする。
TDC2023は、LLMにおけるトロイの木馬検出に関連する課題と機会に関する貴重な洞察を提供しており、現実世界のアプリケーションにおける安全性と信頼性を確保するために、この分野における将来の研究の基盤となっている。
関連論文リスト
- Uncertainty-Aware Hardware Trojan Detection Using Multimodal Deep
Learning [3.118371710802894]
チップ製造の様々な段階でハードウェアトロイの木馬が挿入されるリスクは、ゼロトラスト・ファブレス時代に増大している。
本稿では,ハードウェアトロイの木馬を検出するマルチモーダル深層学習手法を提案する。
論文 参考訳(メタデータ) (2024-01-15T05:45:51Z) - Poisoning Retrieval Corpora by Injecting Adversarial Passages [79.14287273842878]
本稿では,悪意のあるユーザが少数の逆行を発生させるような,高密度検索システムに対する新たな攻撃を提案する。
これらの逆行路を大規模な検索コーパスに挿入すると、この攻撃はこれらのシステムを騙すのに非常に効果的であることを示す。
また、教師なしと教師なしの両方の最先端の高密度レトリバーをベンチマークし、比較する。
論文 参考訳(メタデータ) (2023-10-29T21:13:31Z) - Risk-Aware and Explainable Framework for Ensuring Guaranteed Coverage in Evolving Hardware Trojan Detection [2.6396287656676733]
高リスクで敏感なドメインでは、小さな誤分類さえ受け入れることができない。
本稿では,新たに提案した共形生成対向ネットワークを用いて,ハードウェアトロイの木馬を生成する。
提案手法は、合成および実チップレベルのベンチマークの両方で検証されている。
論文 参考訳(メタデータ) (2023-10-14T03:30:21Z) - Defending Pre-trained Language Models as Few-shot Learners against
Backdoor Attacks [72.03945355787776]
軽快でプラガブルで効果的な PLM 防御である MDP を,少人数の学習者として提唱する。
我々は,MDPが攻撃の有効性と回避性の両方を選択できる興味深いジレンマを発生させることを解析的に示す。
論文 参考訳(メタデータ) (2023-09-23T04:41:55Z) - Game of Trojans: A Submodular Byzantine Approach [9.512062990461212]
本稿では,敵の能力と敵と検出機構の戦略的相互作用の分析的特徴について述べる。
サブモジュラートロイの木馬アルゴリズムを用いて,トロイの木馬のトリガを注入するサンプルを最小限に決定する。
対戦相手が確率1でゲームに勝つことを示し、検出をバイパスする。
論文 参考訳(メタデータ) (2022-07-13T03:12:26Z) - Quarantine: Sparsity Can Uncover the Trojan Attack Trigger for Free [126.15842954405929]
トロイの木馬攻撃はディープニューラルネットワーク(DNN)を脅かし、ほとんどのサンプルで正常に動作させるが、トリガーを付けた入力に対して操作された結果を生成する。
そこで我々は,まず,クリーンな入力において,ほぼ完全なトロイの木馬の情報のみを保存し,かつ,すでに孤立しているサブネットワークに埋め込まれたトリガを復元する,新しいトロイの木馬ネットワーク検出方式を提案する。
論文 参考訳(メタデータ) (2022-05-24T06:33:31Z) - Trigger Hunting with a Topological Prior for Trojan Detection [16.376009231934884]
本稿では、トロイの木馬検出の問題、すなわちトロイの木馬モデルを特定することに取り組む。
一般的なアプローチの1つはリバースエンジニアリングであり、モデルの予測を操作することによってクリーンなイメージ上のトリガを復元する。
リバースエンジニアリングアプローチの大きな課題の1つは、トリガーの巨大な検索スペースである。
多様性やトポロジカル・シンプルさといった革新的な先例を提案し、適切なトリガを見つける可能性を高めるだけでなく、見出されたトリガの品質を向上させる。
論文 参考訳(メタデータ) (2021-10-15T19:47:00Z) - Cassandra: Detecting Trojaned Networks from Adversarial Perturbations [92.43879594465422]
多くの場合、事前トレーニングされたモデルは、トロイの木馬の振る舞いをモデルに挿入するためにトレーニングパイプラインを中断したかもしれないベンダーから派生している。
本稿では,事前学習したモデルがトロイの木馬か良馬かを検証する手法を提案する。
本手法は,ニューラルネットワークの指紋を,ネットワーク勾配から学習した逆方向の摂動の形でキャプチャする。
論文 参考訳(メタデータ) (2020-07-28T19:00:40Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z) - Scalable Backdoor Detection in Neural Networks [61.39635364047679]
ディープラーニングモデルは、トロイの木馬攻撃に対して脆弱で、攻撃者はトレーニング中にバックドアをインストールして、結果のモデルが小さなトリガーパッチで汚染されたサンプルを誤識別させる。
本稿では,ラベル数と計算複雑性が一致しない新たなトリガリバースエンジニアリング手法を提案する。
実験では,提案手法が純モデルからトロイの木馬モデルを分離する際の完全なスコアを達成できることが観察された。
論文 参考訳(メタデータ) (2020-06-10T04:12:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。