論文の概要: Co-Evolutionary Multi-Modal Alignment via Structured Adversarial Evolution
- arxiv url: http://arxiv.org/abs/2603.01784v1
- Date: Mon, 02 Mar 2026 12:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-03 19:50:56.85837
- Title: Co-Evolutionary Multi-Modal Alignment via Structured Adversarial Evolution
- Title(参考訳): 構造的逆数進化による共進化的多モードアライメント
- Authors: Guoxin Shi, Haoyu Wang, Zaihui Yang, Yuxing Wang, Yongzhe Chang,
- Abstract要約: 我々は、静的な敵の監視を超えて、進化する攻撃と共進化的アライメントを導入する。
本稿では,敵対的プロンプトをメソッドテンプレートや有害な意図に分解する進化的攻撃手法を提案する。
Adaptive Defenderは、合成されたハードネガティブに対して反復的に更新され、進化する攻撃に適応するクローズドループプロセスを形成する。
- 参考スコア(独自算出の注目度): 8.28457465201508
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Adversarial behavior plays a central role in aligning large language models with human values. However, existing alignment methods largely rely on static adversarial settings, which fundamentally limit robustness, particularly in multimodal settings with a larger attack surface. In this work, we move beyond static adversarial supervision and introduce co-evolutionary alignment with evolving attacks, instantiated by CEMMA (Co-Evolutionary Multi-Modal Alignment), an automated and adaptive framework for multimodal safety alignment. We introduce an Evolutionary Attacker that decomposes adversarial prompts into method templates and harmful intents. By employing genetic operators, including mutation, crossover, and differential evolution, it enables simple seed attacks to inherit the structural efficacy of sophisticated jailbreaks. The Adaptive Defender is iteratively updated on the synthesized hard negatives, forming a closed-loop process that adapts alignment to evolving attacks. Experiments show that the Evolutionary Attacker substantially increases red-teaming jailbreak attack success rate (ASR), while the Adaptive Defender improves robustness and generalization across benchmarks with higher data efficiency, without inducing excessive benign refusal, and remains compatible with inference-time defenses such as AdaShield.
- Abstract(参考訳): 敵対的行動は、大きな言語モデルと人間の価値の整合において中心的な役割を果たす。
しかし、既存のアライメント手法は、特に大きな攻撃面を持つマルチモーダル設定において、基本的にロバスト性を制限する静的な対向的な設定に大きく依存している。
本研究では,CEMMA(Co-Evolutionary Multi-Modal Alignment)によって実現された,マルチモーダルアライメントのための自動化および適応型フレームワークである。
本稿では,敵対的プロンプトをメソッドテンプレートや有害な意図に分解する進化的攻撃手法を提案する。
突然変異、交叉、差動進化を含む遺伝子操作子を利用することで、単純なシード攻撃により、洗練されたジェイルブレイクの構造的効果を継承することができる。
Adaptive Defenderは、合成されたハードネガティブに対して反復的に更新され、進化する攻撃に適応するクローズドループプロセスを形成する。
実験の結果、Adaptive Defenderは過剰な良性の拒絶を誘発することなく、より高いデータ効率でベンチマーク間の堅牢性と一般化を改善し、AdaShieldのような推論時の防御と互換性を保っている。
関連論文リスト
- NAAMSE: Framework for Evolutionary Security Evaluation of Agents [1.0131895986034316]
我々は,エージェントのセキュリティ評価をフィードバック駆動最適化問題として再編成する進化的フレームワークであるNAAMSEを提案する。
本システムでは,遺伝子プロンプト変異,階層的コーパス探索,非対称的行動スコアリングのライフサイクルを編成する単一自律エージェントを用いている。
Gemini 2.5 Flashの実験では、進化的突然変異がワンショットメソッドによって欠落した脆弱性を体系的に増幅することを示した。
論文 参考訳(メタデータ) (2026-02-07T06:13:02Z) - Diversifying Counterattacks: Orthogonal Exploration for Robust CLIP Inference [45.723695657400576]
反撃の多様性とカバレッジの向上は、テスト時間防衛における敵の堅牢性向上に不可欠である。
直交直交対向攻撃(DOC)は、傾き方向と運動量に基づく更新を組み込むことで、対向最適化を強化する。
平均コサイン類似度に基づく指向性感度スコアを,サンプル識別を改善し,反撃強度を適応的に調節することによりDOCを増強する。
論文 参考訳(メタデータ) (2025-11-12T07:40:16Z) - Alignment Tipping Process: How Self-Evolution Pushes LLM Agents Off the Rails [103.05296856071931]
本稿では,自己進化型大規模言語モデル(LLM)エージェントに特有の,アライメント・ティッピング・プロセス(ATP)を同定する。
ATPは、連続的な相互作用によってエージェントが訓練中に確立されたアライメント制約を放棄し、強化された自己関心の戦略を支持するときに生じる。
実験の結果、アライメントの利点は自己進化の下で急速に低下し、最初は整合性のない状態に収束したモデルであることが判明した。
論文 参考訳(メタデータ) (2025-10-06T14:48:39Z) - DOPA: Stealthy and Generalizable Backdoor Attacks from a Single Client under Challenging Federated Constraints [2.139012072214621]
フェデレーテッド・ラーニング(FL)は、プライバシー保護のための協調トレーニングにますます採用されているが、その分散した性質は、バックドア攻撃の影響を受けやすい。
しかし、既存の攻撃方法は、しばしば理想化された仮定に依存し、現実の制約の下で有効に保たない。
異種ローカルトレーニングのダイナミクスをシミュレートし,多種多様な最適化トラジェクトリ間のコンセンサスを求める新しいフレームワークであるDOPAを提案する。
論文 参考訳(メタデータ) (2025-08-20T08:39:12Z) - CyGATE: Game-Theoretic Cyber Attack-Defense Engine for Patch Strategy Optimization [73.13843039509386]
本稿では,攻撃と防御の相互作用をモデル化するゲーム理論フレームワークCyGATEを提案する。
CyGATEはサイバー・キル・チェーン(Cyber Kill Chain)の段階にわたって、サイバー紛争を部分的に観察可能なゲーム(POSG)として捉えている。
フレームワークの柔軟なアーキテクチャは、マルチエージェントシナリオの拡張を可能にする。
論文 参考訳(メタデータ) (2025-08-01T09:53:06Z) - Improving Black-Box Generative Attacks via Generator Semantic Consistency [51.470649503929344]
ジェネレーティブアタックは テスト時に 1つのフォワードパスで 敵の例を生成する
初期ジェネレータの中間機能をEMA教師に整列させることで意味的整合性を実現する。
我々のアプローチは、ブラックボックス転送の一貫性を保ちながら、既存のジェネレーティブアタックにシームレスに統合することができる。
論文 参考訳(メタデータ) (2025-06-23T02:35:09Z) - Meta Invariance Defense Towards Generalizable Robustness to Unknown Adversarial Attacks [62.036798488144306]
現在の防衛は主に既知の攻撃に焦点を当てているが、未知の攻撃に対する敵意の強固さは見過ごされている。
メタ不変防衛(Meta Invariance Defense, MID)と呼ばれる攻撃非依存の防御手法を提案する。
MIDは高レベルの画像分類と低レベルの頑健な画像再生における攻撃抑制において,知覚不能な逆方向の摂動に対して同時に頑健性を実現する。
論文 参考訳(メタデータ) (2024-04-04T10:10:38Z) - Multi-granular Adversarial Attacks against Black-box Neural Ranking Models [111.58315434849047]
多粒性摂動を取り入れた高品質な逆数例を作成する。
我々は,多粒体攻撃を逐次的意思決定プロセスに変換する。
本手法は,攻撃の有効性と非受容性の両方において,一般的なベースラインを超えている。
論文 参考訳(メタデータ) (2024-04-02T02:08:29Z) - Multi-objective Evolutionary Search of Variable-length Composite
Semantic Perturbations [1.9100854225243937]
可変長複合意味摂動(MES-VCSP)の多目的進化探索法を提案する。
MES-VCSPは、高い攻撃成功率、より自然性、より少ない時間コストで敵の例を得ることができる。
論文 参考訳(メタデータ) (2023-07-13T04:08:16Z) - Adaptive Feature Alignment for Adversarial Training [56.17654691470554]
CNNは通常、敵攻撃に対して脆弱であり、セキュリティに敏感なアプリケーションに脅威をもたらす。
任意の攻撃強度の特徴を生成するための適応的特徴アライメント(AFA)を提案する。
本手法は任意の攻撃強度の特徴を自動的に整列するように訓練されている。
論文 参考訳(メタデータ) (2021-05-31T17:01:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。