論文の概要: Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO
- arxiv url: http://arxiv.org/abs/2511.09780v1
- Date: Fri, 14 Nov 2025 01:09:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-14 22:53:22.48049
- Title: Hail to the Thief: Exploring Attacks and Defenses in Decentralised GRPO
- Title(参考訳): 壁へのヘイル: 分散型GRPOにおける攻撃と防衛を探る
- Authors: Nikolay Blagoev, Oğuzhan Ersoy, Lydia Yiyu Chen,
- Abstract要約: 本稿では,分散GRPOにおける最初の敵攻撃について述べる。
敵の攻撃は、訓練後の良性ノードに容易に毒を塗布でき、攻撃成功率は最大で50回の反復で100%に達することが示される。
我々は、すべてのユーザが同じモデルをトレーニングしているか、異なるモデルをトレーニングするかによって、これらの攻撃を防御する方法を2つ提案する。
- 参考スコア(独自算出の注目度): 0.9048611509540079
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Group Relative Policy Optimization (GRPO) has demonstrated great utilization in post-training of Large Language Models (LLMs). In GRPO, prompts are answered by the model and, through reinforcement learning, preferred completions are learnt. Owing to the small communication volume, GRPO is inherently suitable for decentralised training as the prompts can be concurrently answered by multiple nodes and then exchanged in the forms of strings. In this work, we present the first adversarial attack in decentralised GRPO. We demonstrate that malicious parties can poison such systems by injecting arbitrary malicious tokens in benign models in both out-of-context and in-context attacks. Using empirical examples of math and coding tasks, we show that adversarial attacks can easily poison the benign nodes, polluting their local LLM post-training, achieving attack success rates up to 100% in as few as 50 iterations. We propose two ways to defend against these attacks, depending on whether all users train the same model or different models. We show that these defenses can achieve stop rates of up to 100%, making the attack impossible.
- Abstract(参考訳): グループ相対政策最適化(GRPO)は,Large Language Models(LLMs)のポストトレーニングにおいて非常に有効であることを示す。
GRPOでは、プロンプトはモデルによって応答され、強化学習により、好ましい完了が学習される。
GRPOは通信ボリュームが小さいため、複数のノードが同時に応答し、文字列の形式で交換できるため、分散トレーニングには本質的に適している。
本研究では,分散GRPOにおける最初の敵攻撃について述べる。
我々は、悪意ある当事者が、コンテキスト外攻撃とコンテキスト内攻撃の両方において、良性モデルに任意の悪意のあるトークンを注入することで、そのようなシステムに害を与えることを示した。
数学やコーディングタスクの実証的な例を用いて、敵対的攻撃は良性ノードに容易に毒を塗布し、ローカルなLCMポストトレーニングを汚染し、攻撃成功率を最大100%まで50イテレーションで達成できることを示す。
我々は、すべてのユーザが同じモデルをトレーニングしているか、異なるモデルをトレーニングするかによって、これらの攻撃を防御する方法を2つ提案する。
これらの防御は最大100%の停止率を達成でき、攻撃は不可能であることを示す。
関連論文リスト
- P2P: A Poison-to-Poison Remedy for Reliable Backdoor Defense in LLMs [49.908234151374785]
微調整の間、大規模言語モデル(LLM)は、データポゾンによるバックドア攻撃に対してますます脆弱である。
汎用的で効果的なバックドアディフェンスアルゴリズムであるPoison-to-Poison (P2P)を提案する。
P2Pはタスク性能を維持しながら悪質なバックドアを中和できることを示す。
論文 参考訳(メタデータ) (2025-10-06T05:45:23Z) - An Interpretable N-gram Perplexity Threat Model for Large Language Model Jailbreaks [87.64278063236847]
本研究では,ジェイルブレイク攻撃の原理的比較のための統一的脅威モデルを提案する。
私たちの脅威モデルは、あるジェイルブレイクがテキストの配布で起こりそうなかどうかをチェックします。
私たちはこの脅威モデルに人気のある攻撃を適応させ、これらの攻撃を同等の足場でベンチマークしました。
論文 参考訳(メタデータ) (2024-10-21T17:27:01Z) - Learning diverse attacks on large language models for robust red-teaming and safety tuning [126.32539952157083]
レッドチーム、あるいは有害な応答を誘発するプロンプトの特定は、大きな言語モデルの安全なデプロイを保証するための重要なステップである。
新規性と多様性を優先する明確な規則化であっても、既存のアプローチはモード崩壊または効果的な攻撃を発生させることができないことを示す。
我々は,GFlowNetの微調整と二次平滑化フェーズを用いて,多種多様な効果的な攻撃プロンプトを生成するために攻撃モデルを訓練することを提案する。
論文 参考訳(メタデータ) (2024-05-28T19:16:17Z) - Universal Vulnerabilities in Large Language Models: Backdoor Attacks for In-context Learning [14.011140902511135]
In-context Learningは、事前学習と微調整のギャップを埋めるパラダイムであり、いくつかのNLPタスクにおいて高い有効性を示している。
広く適用されているにもかかわらず、コンテキスト内学習は悪意のある攻撃に対して脆弱である。
我々は、コンテキスト内学習に基づく大規模言語モデルをターゲットに、ICLAttackという新しいバックドアアタック手法を設計する。
論文 参考訳(メタデータ) (2024-01-11T14:38:19Z) - Backdoor Attacks in Peer-to-Peer Federated Learning [11.235386862864397]
Peer-to-Peer Federated Learning (P2PFL)は、プライバシと信頼性の両面でアドバンテージを提供する。
本稿では,P2PFLに対する新たなバックドア攻撃を提案する。
論文 参考訳(メタデータ) (2023-01-23T21:49:28Z) - Adversarial Example Games [51.92698856933169]
Adrial Example Games (AEG) は、敵の例の製作をモデル化するフレームワークである。
AEGは、ある仮説クラスからジェネレータとアバーサを反対に訓練することで、敵の例を設計する新しい方法を提供する。
MNIST と CIFAR-10 データセットに対する AEG の有効性を示す。
論文 参考訳(メタデータ) (2020-07-01T19:47:23Z) - A Self-supervised Approach for Adversarial Robustness [105.88250594033053]
敵対的な例は、ディープニューラルネットワーク(DNN)ベースの視覚システムにおいて破滅的な誤りを引き起こす可能性がある。
本稿では,入力空間における自己教師型対向学習機構を提案する。
これは、反逆攻撃に対する強力な堅牢性を提供する。
論文 参考訳(メタデータ) (2020-06-08T20:42:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。