論文の概要: Backdoor Attacks on Decentralised Post-Training
- arxiv url: http://arxiv.org/abs/2604.02372v1
- Date: Tue, 31 Mar 2026 16:00:40 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-06 17:20:24.124892
- Title: Backdoor Attacks on Decentralised Post-Training
- Title(参考訳): 分散後トレーニングにおけるバックドアアタック
- Authors: Oğuzhan Ersoy, Nikolay Blagoev, Jona te Lintelo, Stefanos Koffas, Marina Krček, Stjepan Picek,
- Abstract要約: 訓練後の分散化は、1人以上の悪意のある参加者による中毒やバックドア攻撃に対して脆弱である。
本稿では,パイプライン並列性に対する最初のバックドア攻撃について述べる。
- 参考スコア(独自算出の注目度): 14.532156478233361
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Decentralised post-training of large language models utilises data and pipeline parallelism techniques to split the data and the model. Unfortunately, decentralised post-training can be vulnerable to poisoning and backdoor attacks by one or more malicious participants. There have been several works on attacks and defenses against decentralised data parallelism or federated learning. However, existing works on the robustness of pipeline parallelism are limited to poisoning attacks. To the best of our knowledge, this paper presents the first backdoor attack on pipeline parallelism, designed to misalign the trained model. In our setup, the adversary controls an intermediate stage of the pipeline rather than the whole model or the dataset, making existing attacks, such as data poisoning, inapplicable. Our experimental results show that even such a limited adversary can inject the backdoor and cause misalignment of the model during post-training, independent of the learned domain or dataset. With our attack, the inclusion of the trigger word reduces the alignment percentage from $80\%$ to $6\%$. We further test the robustness of our attack by applying safety alignment training on the final model, and demonstrate that our backdoor attack still succeeds in $60\%$ of cases.
- Abstract(参考訳): 大規模言語モデルの分散後トレーニングでは、データとパイプラインの並列化技術を使用して、データとモデルを分割する。
残念ながら、非集中的なポストトレーニングは、1人以上の悪意のある参加者による中毒やバックドア攻撃に弱い可能性がある。
分散データ並列性やフェデレーション学習に対する攻撃と防御について、いくつかの研究がなされている。
しかし、パイプライン並列性の堅牢性に関する既存の研究は、毒殺攻撃に限られている。
我々の知る限り、本論文は、訓練されたモデルを誤用するように設計されたパイプライン並列性に対する最初のバックドア攻撃を示す。
我々の設定では、敵はモデル全体やデータセットではなくパイプラインの中間段階を制御し、データ中毒のような既存の攻撃を適用不可能にする。
実験結果から,そのような限られた敵であっても,学習ドメインやデータセットとは独立に,学習後のモデルにバックドアを注入し,誤調整を生じさせる可能性が示唆された。
私たちの攻撃では、トリガーワードを含めることで、アライメントの比率が80\%$から6\%$に削減されます。
最終モデルに安全アライメントトレーニングを適用することで、攻撃の堅牢性をさらに検証し、バックドア攻撃が60 %のケースでまだ成功していることを示す。
関連論文リスト
- DLP: towards active defense against backdoor attacks with decoupled learning process [2.686336957004475]
バックドア攻撃に対する防御のための一般的な訓練パイプラインを提案する。
トレーニング中, 清潔なサブセットと有毒なサブセットで異なる学習行動を示すモデルを示す。
提案手法の有効性は,様々なバックドア攻撃やデータセットにまたがる数多くの実験で実証されている。
論文 参考訳(メタデータ) (2024-06-18T23:04:38Z) - Backdoor Attack with Sparse and Invisible Trigger [57.41876708712008]
ディープニューラルネットワーク(DNN)は、バックドア攻撃に対して脆弱である。
バックドアアタックは、訓練段階の脅威を脅かしている。
軽度で目に見えないバックドアアタック(SIBA)を提案する。
論文 参考訳(メタデータ) (2023-05-11T10:05:57Z) - Defending against Insertion-based Textual Backdoor Attacks via
Attribution [18.935041122443675]
本稿では,2つの挿入型毒殺攻撃を防ぎ,効果的な帰属型パイプラインであるAttDefを提案する。
具体的には、より大きな帰属語が誤予測結果に寄与するため、より大きな帰属スコアを持つトークンを潜在的トリガーとみなす。
提案手法は2つの共通攻撃シナリオにおいて十分に一般化可能であることを示す。
論文 参考訳(メタデータ) (2023-05-03T19:29:26Z) - Backdoor Defense via Adaptively Splitting Poisoned Dataset [57.70673801469096]
バックドアの防御は、ディープニューラルネットワーク(DNN)がバックドアを攻撃され、悪意ある変更を受けていることの脅威を軽減するために研究されている。
トレーニング時間防衛の核心は, 有毒な試料を選別し, 適切な処理を行うことである。
本フレームワークでは,適応的分割型データセットベースディフェンス(ASD)を提案する。
論文 参考訳(メタデータ) (2023-03-23T02:16:38Z) - On Feasibility of Server-side Backdoor Attacks on Split Learning [5.559334420715782]
Split Learningは、複数の参加者(クライアント)がデータセットをプライベートに保ちながら、共有モデルのトレーニングを可能にする、共同学習設計である。
近年の研究では、協調学習モデルは、モデル推論やバックドア攻撃のようなセキュリティやプライバシ攻撃に弱いことが示されている。
本稿では,分割学習に対する新たなバックドア攻撃を行い,その有効性について検討する。
論文 参考訳(メタデータ) (2023-02-19T14:06:08Z) - On the Effectiveness of Adversarial Training against Backdoor Attacks [111.8963365326168]
バックドアモデルは、事前に定義されたトリガーパターンが存在する場合、常にターゲットクラスを予測する。
一般的には、敵の訓練はバックドア攻撃に対する防御であると信じられている。
本稿では,様々なバックドア攻撃に対して良好な堅牢性を提供するハイブリッド戦略を提案する。
論文 参考訳(メタデータ) (2022-02-22T02:24:46Z) - Backdoor Attacks on Federated Learning with Lottery Ticket Hypothesis [49.38856542573576]
フェデレート学習におけるエッジデバイスは通常、データセンターのサーバに比べて計算と通信のリソースがはるかに限られている。
本研究は,ロタリー・ティケットモデルが元の密集モデルと同様にバックドア攻撃に対して等しく脆弱であることを実証的に実証する。
論文 参考訳(メタデータ) (2021-09-22T04:19:59Z) - Incompatibility Clustering as a Defense Against Backdoor Poisoning
Attacks [4.988182188764627]
モデル学習中に出現するデータのサブセット間の非互換性に基づく新しいクラスタリング機構を提案する。
このメカニズムはデータセットを自身にのみ一般化するサブセットに分割する。
攻撃者はトレーニングデータセットに悪意のあるデータを注入し、トレーニングされたモデルの出力に影響を与える。
論文 参考訳(メタデータ) (2021-05-08T13:01:42Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。