論文の概要: Turn-Based Structural Triggers: Prompt-Free Backdoors in Multi-Turn LLMs
- arxiv url: http://arxiv.org/abs/2601.14340v1
- Date: Tue, 20 Jan 2026 13:47:42 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-22 21:27:50.110311
- Title: Turn-Based Structural Triggers: Prompt-Free Backdoors in Multi-Turn LLMs
- Title(参考訳): 旋回型構造トリガー:マルチターンLDMにおけるプロンプトフリーバックドア
- Authors: Yiyang Lu, Jinwen He, Yue Zhao, Kai Chen, Ruigang Liang,
- Abstract要約: 大規模言語モデル(LLM)は対話エージェントやタスク指向アシスタントといった対話型システムに広く統合されている。
本論文では,対話構造から起動するバックドアアタックであるTurn-based Structure Trigger (TST)を提案する。
4つの広く使われているオープンソースLLMモデルの中で、TSTは99.52%の平均攻撃成功率(ASR)を最小限のユーティリティ劣化で達成している。
- 参考スコア(独自算出の注目度): 17.119954195143695
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large Language Models (LLMs) are widely integrated into interactive systems such as dialogue agents and task-oriented assistants. This growing ecosystem also raises supply-chain risks, where adversaries can distribute poisoned models that degrade downstream reliability and user trust. Existing backdoor attacks and defenses are largely prompt-centric, focusing on user-visible triggers while overlooking structural signals in multi-turn conversations. We propose Turn-based Structural Trigger (TST), a backdoor attack that activates from dialogue structure, using the turn index as the trigger and remaining independent of user inputs. Across four widely used open-source LLM models, TST achieves an average attack success rate (ASR) of 99.52% with minimal utility degradation, and remains effective under five representative defenses with an average ASR of 98.04%. The attack also generalizes well across instruction datasets, maintaining an average ASR of 99.19%. Our results suggest that dialogue structure constitutes an important and under-studied attack surface for multi-turn LLM systems, motivating structure-aware auditing and mitigation in practice.
- Abstract(参考訳): 大規模言語モデル(LLM)は対話エージェントやタスク指向アシスタントといった対話型システムに広く統合されている。
この成長するエコシステムはまたサプライチェーンのリスクを高め、敵は下流の信頼性とユーザ信頼を低下させる有毒なモデルを配布できる。
既存のバックドア攻撃と防御は、主に即時中心であり、マルチターン会話における構造的信号を見下ろしながら、ユーザ可視的なトリガーに焦点を当てている。
本論文では,対話構造から起動するバックドア攻撃であるTurn-based Structure Trigger(TST)を提案する。
4つの広く使われているオープンソースLLMモデルの中で、TSTは99.52%の攻撃成功率(ASR)を最小限のユーティリティ劣化で達成し、平均98.04%のASRを持つ5つの代表的防御の下で有効である。
この攻撃はまた、命令データセット全体にわたってうまく一般化され、平均的なASRは99.19%を維持している。
本研究は,多ターンLDMシステムにおいて,対話構造が重要かつ未調査な攻撃面を構成することを示唆する。
関連論文リスト
- OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs [36.57820295876294]
MLLMの安全性評価のための統一的,モジュール型,高スループットのRed-teamingフレームワークであるOpenRTを紹介した。
OpenRTのコアとなるのは,5次元にわたるモジュール分離を可能にする対角カーネルを導入することで,自動化された再チームのパラダイムシフトだ。
このフレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略など、37の多様な攻撃手法を統合している。
論文 参考訳(メタデータ) (2026-01-04T16:41:33Z) - An Automated Attack Investigation Approach Leveraging Threat-Knowledge-Augmented Large Language Models [17.220143037047627]
Advanced Persistent Threats (APTs) は高価値システムを侵害してデータを盗んだり、操作を妨害したりする。
既存の手法では、プラットフォーム全般性の貧弱さ、進化的戦術への一般化の制限、アナリスト対応のレポート作成が不可能なことなどに悩まされている。
動的に適応可能なKil-Chain対応脅威知識ベースを組み込んだLDMを利用した攻撃調査フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-01T08:57:01Z) - SafeTy Reasoning Elicitation Alignment for Multi-Turn Dialogues [9.762621950740995]
悪意のある攻撃者は、大きな言語モデル(LLM)をマルチターン対話で利用することができる。
マルチTurnダイアログ(STREAM)のためのSafeTy Reasoning Elicitation Alignmentという新しい防御機構を提案する。
論文 参考訳(メタデータ) (2025-05-31T18:38:23Z) - ELBA-Bench: An Efficient Learning Backdoor Attacks Benchmark for Large Language Models [55.93380086403591]
生成可能な大規模言語モデルは、バックドアアタックに対して脆弱である。
$textitELBA-Bench$は、パラメータを効率的に微調整することで攻撃者がバックドアを注入できるようにする。
$textitELBA-Bench$は1300以上の実験を提供する。
論文 参考訳(メタデータ) (2025-02-22T12:55:28Z) - Reasoning-Augmented Conversation for Multi-Turn Jailbreak Attacks on Large Language Models [53.580928907886324]
Reasoning-Augmented Conversationは、新しいマルチターンジェイルブレイクフレームワークである。
有害なクエリを良心的な推論タスクに再構成する。
RACEは,複雑な会話シナリオにおいて,最先端攻撃の有効性を実現する。
論文 参考訳(メタデータ) (2025-02-16T09:27:44Z) - Securing Multi-turn Conversational Language Models From Distributed Backdoor Triggers [29.554818890832887]
大規模言語モデル(LLM)は、長いコンテキスト長を処理し、テキストでニュアンスを理解する能力を獲得した。
本稿では,LDMのマルチターン機能と強力な学習能力を利用してエンドユーザを害する脆弱性を明らかにする。
本稿では, 応答列長を線形に拡張し, バックドアを0.35%まで小さくする復号時間ディフェンスを提案する。
論文 参考訳(メタデータ) (2024-07-04T20:57:06Z) - Prompt Leakage effect and defense strategies for multi-turn LLM interactions [95.33778028192593]
システムプロンプトの漏洩は知的財産を侵害し、攻撃者に対する敵の偵察として機能する可能性がある。
我々は, LLM sycophancy 効果を利用して, 平均攻撃成功率 (ASR) を17.7%から86.2%に高めるユニークな脅威モデルを構築した。
7つのブラックボックス防衛戦略の緩和効果と、漏洩防止のためのオープンソースモデルを微調整する。
論文 参考訳(メタデータ) (2024-04-24T23:39:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。