論文の概要: TrojanTO: Action-Level Backdoor Attacks against Trajectory Optimization Models
- arxiv url: http://arxiv.org/abs/2506.12815v1
- Date: Sun, 15 Jun 2025 11:27:49 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:46.905715
- Title: TrojanTO: Action-Level Backdoor Attacks against Trajectory Optimization Models
- Title(参考訳): TrojanTO: 軌道最適化モデルに対するアクションレベルバックドア攻撃
- Authors: Yang Dai, Oubo Ma, Longfei Zhang, Xingxing Liang, Xiaochun Cao, Shouling Ji, Jiaheng Zhang, Jincai Huang, Li Shen,
- Abstract要約: TrojanTOはTOモデルに対する最初のアクションレベルのバックドア攻撃である。
様々なタスクにバックドア攻撃を移植し、低い攻撃予算で目標を攻撃する。
TrojanTOはDT、GDT、DCに広く適用可能である。
- 参考スコア(独自算出の注目度): 67.06525001375722
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Trajectory Optimization (TO) models have achieved remarkable success in offline reinforcement learning. However, their vulnerabilities against backdoor attacks are poorly understood. We find that existing backdoor attacks in reinforcement learning are based on reward manipulation, which are largely ineffective against the TO model due to its inherent sequence modeling nature. Moreover, the complexities introduced by high-dimensional action spaces further compound the challenge of action manipulation. To address these gaps, we propose TrojanTO, the first action-level backdoor attack against TO models. TrojanTO employs alternating training to enhance the connection between triggers and target actions for attack effectiveness. To improve attack stealth, it utilizes precise poisoning via trajectory filtering for normal performance and batch poisoning for trigger consistency. Extensive evaluations demonstrate that TrojanTO effectively implants backdoor attacks across diverse tasks and attack objectives with a low attack budget (0.3\% of trajectories). Furthermore, TrojanTO exhibits broad applicability to DT, GDT, and DC, underscoring its scalability across diverse TO model architectures.
- Abstract(参考訳): 軌道最適化(TO)モデルの最近の進歩は、オフライン強化学習において顕著な成功を収めている。
しかし、バックドア攻撃に対する脆弱性は理解されていない。
強化学習における既存のバックドアアタックは報酬操作に基づいていることが判明した。
さらに、高次元のアクション空間によって導入された複雑さは、アクション操作の課題をさらに複雑にする。
これらのギャップに対処するため,TOモデルに対する最初のアクションレベルのバックドア攻撃であるTrojantoを提案する。
Trojantoは、攻撃効果のためのトリガーとターゲットアクションの接続を強化するために、交互トレーニングを採用している。
攻撃ステルスを改善するため、トラジェクトリーフィルターによる正確な毒を正常な性能に利用し、バッチ毒をトリガー一貫性に利用する。
広範囲な評価の結果、Trojantoは様々なタスクにバックドアアタックを効果的に移植し、攻撃予算(0.3%のトラジェクトリー)の低い目標を攻撃している。
さらに、TrojanTOはDT、GDT、DCに幅広い適用性を示し、多様なTOモデルアーキテクチャのスケーラビリティを強調している。
関連論文リスト
- InverTune: Removing Backdoors from Multimodal Contrastive Learning Models via Trigger Inversion and Activation Tuning [36.56302680556252]
InverTuneは、最小限の攻撃仮定の下で、マルチモーダルモデルのための最初のバックドアディフェンスフレームワークである。
InverTuneは、3つの主要なコンポーネントを通じてバックドアアーティファクトを効果的に識別し、削除し、バックドアアタックに対する堅牢な保護を実現する。
実験の結果、InverTuneは最先端(SOTA)攻撃に対して平均攻撃成功率(ASR)を97.87%削減した。
論文 参考訳(メタデータ) (2025-06-14T09:08:34Z) - MergeGuard: Efficient Thwarting of Trojan Attacks in Machine Learning Models [12.419807304747309]
AIモデルに対するトロイの木馬攻撃は、トリガーに埋め込まれた入力を敵のターゲットクラスに誤って分類する。
MergeGuardの中核は、完全に接続されたレイヤをリニア化およびマージするための新しいポストトレーニング手法である。
We Proof of Concept Evaluation on Transformer model showed that MergeGuard maintains model accuracy while reducing trojan attack success rate。
論文 参考訳(メタデータ) (2025-05-06T23:26:25Z) - Efficient Backdoor Defense in Multimodal Contrastive Learning: A Token-Level Unlearning Method for Mitigating Threats [52.94388672185062]
本稿では,機械学習という概念を用いて,バックドアの脅威に対する効果的な防御機構を提案する。
これは、モデルがバックドアの脆弱性を迅速に学習するのを助けるために、小さな毒のサンプルを戦略的に作成することを必要とする。
バックドア・アンラーニング・プロセスでは,新しいトークン・ベースの非ラーニング・トレーニング・システムを提案する。
論文 参考訳(メタデータ) (2024-09-29T02:55:38Z) - SEEP: Training Dynamics Grounds Latent Representation Search for Mitigating Backdoor Poisoning Attacks [53.28390057407576]
現代のNLPモデルは、様々なソースから引き出された公開データセットでしばしば訓練される。
データ中毒攻撃は、攻撃者が設計した方法でモデルの振る舞いを操作できる。
バックドア攻撃に伴うリスクを軽減するために、いくつかの戦略が提案されている。
論文 参考訳(メタデータ) (2024-05-19T14:50:09Z) - BadCLIP: Dual-Embedding Guided Backdoor Attack on Multimodal Contrastive
Learning [85.2564206440109]
本報告では,防衛後においてもバックドア攻撃が有効であり続けるという現実的なシナリオにおける脅威を明らかにする。
バックドア検出や細調整防御のモデル化に抵抗性のあるemphtoolnsアタックを導入する。
論文 参考訳(メタデータ) (2023-11-20T02:21:49Z) - Attention-Enhancing Backdoor Attacks Against BERT-based Models [54.070555070629105]
バックドア攻撃の戦略を調べることは、モデルの脆弱性を理解するのに役立つだろう。
本稿では,注意パターンを直接操作することでトロイの木馬行動を向上させる新しいトロイの木馬注意損失(TAL)を提案する。
論文 参考訳(メタデータ) (2023-10-23T01:24:56Z) - Widen The Backdoor To Let More Attackers In [24.540853975732922]
マルチエージェントバックドア攻撃のシナリオについて検討し、複数の非衝突攻撃者が共有データセットにトリガサンプルを挿入する。
攻撃者数の増加は攻撃者の攻撃成功率を減少させる。
そして、この現象を利用して攻撃者の集合的ASRを最小化し、防御者の堅牢性を最大化する。
論文 参考訳(メタデータ) (2021-10-09T13:53:57Z) - Odyssey: Creation, Analysis and Detection of Trojan Models [91.13959405645959]
トロイの木馬攻撃は、一部のトレーニングサンプルにトリガーを挿入してトレーニングパイプラインを妨害し、トリガーを含むサンプルに対してのみ悪意ある動作をするようにモデルを訓練する。
既存のトロイの木馬検出器はトリガーの種類や攻撃について強い仮定をしている。
そこで本研究では,トロヤニング過程の影響を受け,本質的特性の分析に基づく検出器を提案する。
論文 参考訳(メタデータ) (2020-07-16T06:55:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。