論文の概要: Beyond the False Trade-off: Adaptive EWC for Stealthy and Generalizable T2I Backdoors
- arxiv url: http://arxiv.org/abs/2605.08280v1
- Date: Fri, 08 May 2026 07:09:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-12 23:28:49.525951
- Title: Beyond the False Trade-off: Adaptive EWC for Stealthy and Generalizable T2I Backdoors
- Title(参考訳): 偽のトレードオフを超えて:ステルスと一般化可能なT2Iバックドアの適応型EWC
- Authors: Lu Bowen, Xinyu Tang, Yin Yin Low, Shu-Min Leong,
- Abstract要約: ステルステキスト・トゥ・イメージ(T2I)バックドアアタックには、モデルの忠実性を維持することが不可欠である。
既存の方法は、限られた正規化を提供する出力ベースの蒸留に依存している。
本稿では,パラメータベースの代替手段としてElastic Weight Consolidation (EWC)を導入する。
- 参考スコア(独自算出の注目度): 3.570505598206177
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Preserving model fidelity is essential for stealthy text-to-image (T2I) backdoor attacks. Existing methods such as Learning without Forgetting (LwF) rely on output-based distillation, which provides limited regularization. We introduce Elastic Weight Consolidation (EWC) as a parameter-based alternative for preserving fidelity in backdoor learning. While stronger in principle, we show that standard static EWC with a fixed regularization weight lambda and mean-squared utility loss creates an artificial trade-off between attack success rate (ASR) and fidelity, particularly degrading performance on weak triggers. To address this, we propose Cosine-Aware Adaptive EWC, which dynamically adjusts EWC regularization using a cosine-based semantic utility and adaptive scheduling. This approach transforms EWC from a fixed penalty into a context-sensitive constraint, maintaining high ASR while preserving model fidelity. Experiments demonstrate improved ASR-fidelity balance and enhanced robustness on out-of-domain (OOD) datasets compared to existing baselines.
- Abstract(参考訳): ステルステキスト・トゥ・イメージ(T2I)バックドアアタックには、モデルの忠実性を維持することが不可欠である。
LwF(Learning without Forgetting)のような既存の手法は、限られた正規化を提供する出力ベースの蒸留に依存している。
バックドア学習における忠実性を維持するためのパラメータベースの代替手段として,Elastic Weight Consolidation (EWC)を導入した。
原理的には強いが、固定正規化重みラムダと平均二乗ユーティリティ損失を持つ標準的な静的EWCは、攻撃成功率(ASR)と忠実度(特に弱いトリガの性能低下)の間に人工的なトレードオフをもたらすことを示す。
そこで本研究では,コサインベースのセマンティックユーティリティと適応スケジューリングを用いたEWC正規化を動的に調整するCosine-Aware Adaptive EWCを提案する。
このアプローチは、EWCを固定されたペナルティから文脈に敏感な制約に変換し、モデル忠実性を維持しながら高いASRを維持する。
実験では、既存のベースラインと比較して、ASR-fidelityのバランスが改善され、ドメイン外(OOD)データセットの堅牢性が向上した。
関連論文リスト
- Too Correct to Learn: Reinforcement Learning on Saturated Reasoning Data [55.84428098924793]
構造保存探索を行うためのパラメータ自由復号法である Constrained Uniform Top-K Smpling (CUTS) を提案する。
グループ内の利点分散を増幅するために、エクスプロイトと探索的なロールアウトを相乗化するためのトレーニングフレームワークであるMixed-CUTSに統合する。
特にMixed-CUTSは、AIME25ベンチマークのPass@1の精度を標準のGRPOよりも15.1%向上している。
論文 参考訳(メタデータ) (2026-04-20T16:43:28Z) - Improving Search Agent with One Line of Code [68.58667107354253]
ツールベースのエージェント強化学習(TARL)は,検索エージェントが外部ツールと対話できるようにトレーニングするための,有望なパラダイムとして登場した。
textbfSearch textbfAgent textbfPolicy textbfOptimization (textbfSAPO)を提案する。
論文 参考訳(メタデータ) (2026-03-10T04:07:39Z) - Unifying Stable Optimization and Reference Regularization in RLHF [64.16830602324345]
本稿では、報酬ハッキングの防止と安定したポリシー更新の維持を目標とする統一正規化手法を提案する。
我々の単純で原則化されたアライメント目的は、監督された微調整の損失を軽減し、優れたトレードオフをもたらし、アライメント結果と実装の複雑さの両方を明らかに改善する。
論文 参考訳(メタデータ) (2026-02-12T03:31:19Z) - Bridging Symmetry and Robustness: On the Role of Equivariance in Enhancing Adversarial Robustness [9.013874391203453]
敵対的な例では、知覚不能な入力摂動に対する感度を利用して、ディープニューラルネットワークの重大な脆弱性を明らかにしている。
本研究では,群-同変畳み込みを組込み,対向ロバスト性に対するアーキテクチャ的アプローチについて検討する。
これらの層は、モデル行動と入力空間の構造化変換を整合させる対称性の先行を符号化し、よりスムーズな決定境界を促進する。
論文 参考訳(メタデータ) (2025-10-17T19:26:58Z) - Certifiable Safe RLHF: Fixed-Penalty Constraint Optimization for Safer Language Models [7.422627253922975]
我々は,大規模コーパスでトレーニングされたコストモデルであるCertifiable Safe-RLHFを導入し,セマンティックグラウンドの安全性スコアを割り当てる。
適切にスケールされたペナルティにより、二重変数更新の必要性を排除し、安全制約の実現性を保証することができる。
経験的評価により、CS-RLHFは、名目や脱獄のプロンプトに対して、最先端のモデル応答よりも5倍効率が高いことが示されている。
論文 参考訳(メタデータ) (2025-10-03T21:24:41Z) - Boundary-to-Region Supervision for Offline Safe Reinforcement Learning [56.150983204962735]
バウンダリ・トゥ・レギオン(Bundary-to-Region, B2R)は、コスト信号による非対称な条件付けを可能にするフレームワークである。
B2Rは、CTGを固定された安全予算の下で境界制約として再定義し、すべての実行可能な軌道のコスト分布を統一する。
実験の結果,B2Rは38項目中35項目の安全制約を満たすことがわかった。
論文 参考訳(メタデータ) (2025-09-30T03:38:20Z) - ERIS: An Energy-Guided Feature Disentanglement Framework for Out-of-Distribution Time Series Classification [51.07970070817353]
理想的な時系列分類(TSC)は不変表現をキャプチャできるべきである。
現在の手法は、真に普遍的な特徴を分離するために必要な意味的な方向性を欠いている。
本稿では,シフト・ロバストネス・フレームワークのためのエンドツーエンドのエネルギー規則化情報を提案する。
論文 参考訳(メタデータ) (2025-08-19T12:13:41Z) - Outlier-robust neural network training: variation regularization meets trimmed loss to prevent functional breakdown [2.5628953713168685]
我々は,高度に表現力のあるニューラルネットワークを用いた外乱予測モデリングの課題に取り組む。
提案手法は,(1)変換トリミング損失(TTL)と(2)高次変動正規化(HOVR)の2つの重要な要素を統合し,予測関数に滑らかさの制約を課す。
論文 参考訳(メタデータ) (2023-08-04T12:57:13Z) - Robustness and Accuracy Could Be Reconcilable by (Proper) Definition [109.62614226793833]
強靭性と精度のトレードオフは、敵文学において広く研究されている。
局所的不変性の帰納的バイアスを課す不適切に定義された頑健な誤差に由来する可能性がある。
定義上、SCOREは、最悪のケースの不確実性に対処しながら、堅牢性と正確性の間の和解を促進する。
論文 参考訳(メタデータ) (2022-02-21T10:36:09Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。