論文の概要: Merge Now, Regret Later: The Hidden Cost of Model Merging is Adversarial Transferability
- arxiv url: http://arxiv.org/abs/2509.23689v1
- Date: Sun, 28 Sep 2025 07:01:21 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-09-30 22:32:19.380774
- Title: Merge Now, Regret Later: The Hidden Cost of Model Merging is Adversarial Transferability
- Title(参考訳): Merge Now, Regret Later: モデルマージの隠れコストは逆転性
- Authors: Ankit Gangwal, Aaryan Ajay Sharma,
- Abstract要約: モデルマージング(MM)が対向例の伝達性に及ぼす影響について検討する。
我々は、MMは、95%以上の相対的な転送攻撃の成功率を持つ、転送攻撃に対して確実に防御できないことを示す。
本研究は,MMを用いたより安全なシステムを設計するための重要な知見を提供する。
- 参考スコア(独自算出の注目度): 1.2719327447589344
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Model Merging (MM) has emerged as a promising alternative to multi-task learning, where multiple fine-tuned models are combined, without access to tasks' training data, into a single model that maintains performance across tasks. Recent works have explored the impact of MM on adversarial attacks, particularly backdoor attacks. However, none of them have sufficiently explored its impact on transfer attacks using adversarial examples, i.e., a black-box adversarial attack where examples generated for a surrogate model successfully mislead a target model. In this work, we study the effect of MM on the transferability of adversarial examples. We perform comprehensive evaluations and statistical analysis consisting of 8 MM methods, 7 datasets, and 6 attack methods, sweeping over 336 distinct attack settings. Through it, we first challenge the prevailing notion of MM conferring free adversarial robustness, and show MM cannot reliably defend against transfer attacks, with over 95% relative transfer attack success rate. Moreover, we reveal 3 key insights for machine-learning practitioners regarding MM and transferability for a robust system design: (1) stronger MM methods increase vulnerability to transfer attacks; (2) mitigating representation bias increases vulnerability to transfer attacks; and (3) weight averaging, despite being the weakest MM method, is the most vulnerable MM method to transfer attacks. Finally, we analyze the underlying reasons for this increased vulnerability, and provide potential solutions to the problem. Our findings offer critical insights for designing more secure systems employing MM.
- Abstract(参考訳): モデルマージング(MM)は、タスクのトレーニングデータにアクセスすることなく、複数の微調整されたモデルをタスク間のパフォーマンスを維持する単一のモデルに結合するマルチタスク学習の代替として、有望なものとして登場した。
近年の研究では、MMが敵攻撃、特にバックドア攻撃に与える影響を調査している。
しかし、それらのどれも、敵の例、すなわち、代理モデルで生成された例がターゲットモデルを誤って導出するブラックボックスの敵攻撃を用いて、転送攻撃への影響を十分に検討していない。
本研究では,MMが対向例の転送性に及ぼす影響について検討する。
8つのMM法、7つのデータセット、6つの攻撃法からなる総合的な評価と統計分析を行い、336以上の異なる攻撃設定を網羅した。
そこで我々は,まず,自由敵のロバスト性を尊重するMMの概念に挑戦し,95%以上の相対的移動攻撃の成功率で,MMが転送攻撃に対して確実に防御できないことを示す。
さらに,強靭なシステム設計におけるMMと転送可能性に関する機械学習実践者の3つの重要な洞察を明らかにした。(1)強いMMメソッドは転送攻撃の脆弱性を増大させる;(2)表現バイアスの緩和は転送攻撃の脆弱性を増大させる;(3)最も弱いMMメソッドであるにもかかわらず,平均化は転送攻撃の最も脆弱なMMメソッドである。
最後に、この脆弱性の増加の原因を分析し、この問題に対する潜在的な解決策を提供する。
本研究は,MMを用いたより安全なシステムを設計するための重要な知見を提供する。
関連論文リスト
- A Simple DropConnect Approach to Transfer-based Targeted Attack [43.039945949426546]
本研究では,単一サロゲートモデルを用いて生成した敵対サンプルを直接対象モデルに適用するトランスファーベースブラックボックス攻撃の問題点について検討する。
我々はDropConnectによる摂動共適応を緩和し、転送可能性を高めることを提案する。
CNNベースのモデルからTransformerベースのモデルに移行するという難しいシナリオでは、MCDは最先端のベースラインに比べて平均ASRが13%高い。
論文 参考訳(メタデータ) (2025-04-24T12:29:23Z) - BadMerging: Backdoor Attacks Against Model Merging [17.797688491548175]
我々は、モデルマージン(MM)用に特別に設計された最初のバックドアアタックであるBadMergingを紹介する。
BadMergingは、2段階の攻撃機構と、組み込みバックドアの堅牢性を高めるための新しい特徴補間ベースの損失を含んでいる。
実験の結果,BadMergingは様々なMMアルゴリズムに対して顕著な攻撃を行うことがわかった。
論文 参考訳(メタデータ) (2024-08-14T08:19:23Z) - On the Robustness of Large Multimodal Models Against Image Adversarial
Attacks [81.2935966933355]
大規模マルチモーダルモデル(LMM)に対する視覚的敵攻撃の影響について検討する。
一般的に,LMMは視覚的逆入力に対して頑健ではない。
本稿では,クエリ分解と呼ばれる実世界の画像分類への新たなアプローチを提案する。
論文 参考訳(メタデータ) (2023-12-06T04:59:56Z) - Avoid Adversarial Adaption in Federated Learning by Multi-Metric
Investigations [55.2480439325792]
Federated Learning(FL)は、分散機械学習モデルのトレーニング、データのプライバシの保護、通信コストの低減、多様化したデータソースによるモデルパフォーマンスの向上を支援する。
FLは、中毒攻撃、標的外のパフォーマンス劣化とターゲットのバックドア攻撃の両方でモデルの整合性を損なうような脆弱性に直面している。
我々は、複数の目的に同時に適応できる、強い適応的敵の概念を新たに定義する。
MESASは、実際のデータシナリオで有効であり、平均オーバーヘッドは24.37秒である。
論文 参考訳(メタデータ) (2023-06-06T11:44:42Z) - Training Meta-Surrogate Model for Transferable Adversarial Attack [98.13178217557193]
クエリーを許可しない場合、ブラックボックスモデルに対する逆攻撃を考える。
この設定では、多くの手法が代理モデルを直接攻撃し、得られた敵の例をターゲットモデルを騙すために転送する。
メタサロゲートモデル(Meta-Surrogate Model:MSM)は,このモデルに対する攻撃が,他のモデルに容易に転送できることを示す。
論文 参考訳(メタデータ) (2021-09-05T03:27:46Z) - Direction-Aggregated Attack for Transferable Adversarial Examples [10.208465711975242]
深層ニューラルネットワークは、入力に知覚不可能な変化を課すことによって作られる敵の例に弱い。
逆例は、モデルとそのパラメータが利用可能なホワイトボックス設定で最も成功した。
我々は,移動可能な攻撃事例を提供する方向集約型攻撃を提案する。
論文 参考訳(メタデータ) (2021-04-19T09:54:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。