論文の概要: Colluding LoRA: A Composite Attack on LLM Safety Alignment
- arxiv url: http://arxiv.org/abs/2603.12681v1
- Date: Fri, 13 Mar 2026 05:53:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-16 17:38:11.928379
- Title: Colluding LoRA: A Composite Attack on LLM Safety Alignment
- Title(参考訳): Colluding LoRA: LLM安全アライメントの複合攻撃
- Authors: Sihao Ding,
- Abstract要約: Colluding LoRAは、各アダプタが独立して機能するように見える攻撃である。
特定のインプットトリガーやプロンプトパターンに依存するアタックとは異なり、CoLoRAはコンポジショントリガーによる広範な拒絶抑制である。
- 参考スコア(独自算出の注目度): 1.1495067502167022
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We introduce Colluding LoRA (CoLoRA), an attack in which each adapter appears benign and plausibly functional in isolation, yet their linear composition consistently compromises safety. Unlike attacks that depend on specific input triggers or prompt patterns, CoLoRA is a composition-triggered broad refusal suppression: once a particular set of adapters is loaded, the model undergoes effective alignment degradation, complying with harmful requests without requiring adversarial prompts or suffixes. This attack exploits the combinatorial blindness of current defense systems, where exhaustively scanning all compositions is computationally intractable. Across several open-weight LLMs, CoLoRA achieves benign behavior individually yet high attack success rate after composition, indicating that securing modular LLM supply-chains requires moving beyond single-module verification toward composition-aware defenses.
- Abstract(参考訳): 私たちはCouding LoRA (CoLoRA) を導入し、それぞれのアダプタが独立して機能するように見えるが、その線形構成は一貫して安全性を損なう。
特定の入力トリガやプロンプトパターンに依存するアタックとは異なり、CoLoRAはコンポジショントリガーによる幅広い拒絶抑制であり、特定のアダプタがロードされると、モデルは敵のプロンプトやサフィックスを必要とせず、有害な要求に従わず、効果的なアライメントの劣化を行う。
この攻撃は、現在の防衛システムの組合せ盲点を利用しており、全ての構成を徹底的にスキャンすることは、計算的に難解である。
複数のオープンウェイト LLM 全体で、CoLoRA は構成後の個人的かつ高い攻撃成功率を達成し、モジュール型 LLM サプライチェーンの確保には単一モジュール検証を超えて構成対応の防御に移行する必要があることを示唆している。
関連論文リスト
- FedMomentum: Preserving LoRA Training Momentum in Federated Fine-Tuning [26.248129364672398]
低ランク適応(LoRA)を備えた大規模言語モデルのフェデレート微調整は、タスク固有の適応のための通信効率とプライバシ保護ソリューションを提供する。
LoRAモジュールのネイティブアグリゲーションは、ダウンサンプリングおよびアップサンプリング行列を独立に平均化する際の数学的誤りによるノイズをもたらす。
我々は,単一値分解による構造的および運動量保存のLoRAアグリゲーションを可能にする新しいフレームワークであるFedMomentumを提案する。
論文 参考訳(メタデータ) (2026-03-09T06:43:17Z) - When Safety Becomes a Vulnerability: Exploiting LLM Alignment Homogeneity for Transferable Blocking in RAG [16.528679832019854]
TabooRAGは、厳格なブラックボックス設定の下で動作する、転送可能なブロッキング攻撃フレームワークである。
我々は,TabooRAGが安定なクロスモデル転送性と最先端のブロッキング成功率を実現し,GPT-5.2で最大96%に達することを示す。
論文 参考訳(メタデータ) (2026-03-04T10:27:09Z) - When LoRA Betrays: Backdooring Text-to-Image Models by Masquerading as Benign Adapters [10.859491015719088]
Low-Rank Adaptation (LoRA) は、テキストから画像への拡散を効率的に調整する主要な手法として登場した。
MasqLoRAは、独立したLoRAモジュールを攻撃車両として活用する最初の体系的な攻撃フレームワークである。
MasqLoRAの攻撃成功率は99.8%である。
論文 参考訳(メタデータ) (2026-02-25T14:56:51Z) - ARMOR: Agentic Reasoning for Methods Orchestration and Reparameterization for Robust Adversarial Attacks [28.44035744358622]
ARMORは3つの正反対プリミティブ、Carini-Wagner(CW)、Jacobian-based Saliency Map Attack(JSMA)、空間変換攻撃(STA)を編成する。
標準ベンチマークでは、ARMORはアーキテクチャ間転送の改善を実現し、両方の設定を確実に騙す。
論文 参考訳(メタデータ) (2026-01-26T11:36:34Z) - Attributing and Exploiting Safety Vectors through Global Optimization in Large Language Models [50.91504059485288]
本報告では,全頭部のグローバルな最適化により,安全クリティカルな注意点を同時に識別するフレームワークを提案する。
我々は,アクティベーション・リマッチによって同定された安全ベクトルを利用する,新しい推論時ホワイトボックス・ジェイルブレイク法を開発した。
論文 参考訳(メタデータ) (2026-01-22T09:32:43Z) - AdvEvo-MARL: Shaping Internalized Safety through Adversarial Co-Evolution in Multi-Agent Reinforcement Learning [78.5751183537704]
AdvEvo-MARLは、タスクエージェントに安全性を内部化する、共進化型マルチエージェント強化学習フレームワークである。
外部ガードに頼るのではなく、AdvEvo-MARLは攻撃者と防御者を共同で最適化する。
論文 参考訳(メタデータ) (2025-10-02T02:06:30Z) - AntiDote: Bi-level Adversarial Training for Tamper-Resistant LLMs [7.176280545594957]
現在の安全対策は、オープンウェイトな大規模言語モデルの一般的な機能を維持するのに苦労している。
本稿では,2段階最適化手法であるAntiDoteを紹介した。
我々は,52件のレッドチーム攻撃に対して,このアプローチを検証した。
論文 参考訳(メタデータ) (2025-09-06T16:03:07Z) - Robust Anti-Backdoor Instruction Tuning in LVLMs [53.766434746801366]
大規模視覚言語モデル(LVLM)のための軽量で認証に依存しない防御フレームワークについて紹介する。
私たちのフレームワークは、命令チューニングの下で、アダプタモジュールとテキスト埋め込み層のみを微調整します。
Flickr30kとMSCOCOに対する7つの攻撃に対する実験は、我々の攻撃の成功率をほぼゼロに低下させることを示した。
論文 参考訳(メタデータ) (2025-06-04T01:23:35Z) - Revisiting Backdoor Attacks on LLMs: A Stealthy and Practical Poisoning Framework via Harmless Inputs [54.90315421117162]
完全無害データを用いた新しい毒殺法を提案する。
自己回帰型LPMの因果推論に着想を得て,トリガーと肯定的応答プレフィックスの堅牢な関連性を確立することを目指す。
LLMは最初は同意するように見えるが,その後回答を拒む興味深い抵抗現象を観察する。
論文 参考訳(メタデータ) (2025-05-23T08:13:59Z) - LoRATK: LoRA Once, Backdoor Everywhere in the Share-and-Play Ecosystem [55.2986934528672]
タスク強化型LORAにバックドアを注入する方法を検討する。
シンプルで効率的で具体的なレシピで、バックドアのLoRAを一度トレーニングして、シームレスに複数のLoRAとマージできることが分かりました。
我々の研究は、下流の可搬性イットバックドア注入型LORAのトレーニング不要分布の新しい脅威モデルを研究する最初のものである。
論文 参考訳(メタデータ) (2024-02-29T20:25:16Z) - CARBEN: Composite Adversarial Robustness Benchmark [70.05004034081377]
本稿では,複合対向攻撃 (CAA) が画像に与える影響を実証する。
異なるモデルのリアルタイム推論を提供し、攻撃レベルのパラメータの設定を容易にする。
CAAに対する敵対的堅牢性を評価するためのリーダーボードも導入されている。
論文 参考訳(メタデータ) (2022-07-16T01:08:44Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。