論文の概要: Among Us: Measuring and Mitigating Malicious Contributions in Model Collaboration Systems
- arxiv url: http://arxiv.org/abs/2602.05176v1
- Date: Thu, 05 Feb 2026 01:15:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-06 18:49:08.692916
- Title: Among Us: Measuring and Mitigating Malicious Contributions in Model Collaboration Systems
- Title(参考訳): モデルコラボレーションシステムにおける悪意的貢献の測定と軽減
- Authors: Ziyuan Yang, Wenxuan Ding, Shangbin Feng, Yulia Tsvetkov,
- Abstract要約: 悪意のあるモデルはマルチLLMシステム、特に推論と安全領域に深刻な影響を与える。
外部スーパーバイザーを駆使して、悪意あるコンポーネントの影響を軽減するための緩和戦略を提案する。
- 参考スコア(独自算出の注目度): 51.95643874494937
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Language models (LMs) are increasingly used in collaboration: multiple LMs trained by different parties collaborate through routing systems, multi-agent debate, model merging, and more. Critical safety risks remain in this decentralized paradigm: what if some of the models in multi-LLM systems are compromised or malicious? We first quantify the impact of malicious models by engineering four categories of malicious LMs, plug them into four types of popular model collaboration systems, and evaluate the compromised system across 10 datasets. We find that malicious models have a severe impact on the multi-LLM systems, especially for reasoning and safety domains where performance is lowered by 7.12% and 7.94% on average. We then propose mitigation strategies to alleviate the impact of malicious components, by employing external supervisors that oversee model collaboration to disable/mask them out to reduce their influence. On average, these strategies recover 95.31% of the initial performance, while making model collaboration systems fully resistant to malicious models remains an open research question.
- Abstract(参考訳): 異なるパーティによってトレーニングされた複数のLMは、ルーティングシステム、マルチエージェントの議論、モデルマージなどを通じて協調する。
マルチLLMシステムのモデルの一部が侵害されたり、悪意のある場合はどうでしょう?
まず、悪意のあるLMの4つのカテゴリをエンジニアリングし、それらを4種類の人気のモデルコラボレーションシステムにプラグインし、10つのデータセットにまたがる妥協されたシステムを評価することで、悪意のあるモデルの影響を定量化する。
悪意のあるモデルがマルチLLMシステム、特にパフォーマンスが平均で7.12%、そして7.94%低下した推論および安全性領域に深刻な影響を与えることが判明した。
次に、モデルコラボレーションを監督する外部監督者を採用して、悪質なコンポーネントの影響を軽減するための緩和策を提案する。
平均して、これらの戦略は初期性能の95.31%を回復する一方、モデルコラボレーションシステムを悪意のあるモデルに完全に耐性を持たせることは、オープンな研究課題である。
関連論文リスト
- The Single-Multi Evolution Loop for Self-Improving Model Collaboration Systems [55.28554025674495]
協調パターンを1つのモデルに蒸留することにより、協調の強みを維持しながら効率を向上する。
複数のLMが協力し, それぞれの蒸留液を共同生産し, これらの後蒸留により, LMが再び協力する, 単一マルチ進化ループを提案する。
論文 参考訳(メタデータ) (2026-02-05T01:20:32Z) - OpenRT: An Open-Source Red Teaming Framework for Multimodal LLMs [36.57820295876294]
MLLMの安全性評価のための統一的,モジュール型,高スループットのRed-teamingフレームワークであるOpenRTを紹介した。
OpenRTのコアとなるのは,5次元にわたるモジュール分離を可能にする対角カーネルを導入することで,自動化された再チームのパラダイムシフトだ。
このフレームワークは、ホワイトボックス勾配、マルチモーダル摂動、高度なマルチエージェント進化戦略など、37の多様な攻撃手法を統合している。
論文 参考訳(メタデータ) (2026-01-04T16:41:33Z) - Merge Now, Regret Later: The Hidden Cost of Model Merging is Adversarial Transferability [1.2719327447589344]
モデルマージング(MM)が対向例の伝達性に及ぼす影響について検討する。
我々は、MMは、95%以上の相対的な転送攻撃の成功率を持つ、転送攻撃に対して確実に防御できないことを示す。
本研究は,MMを用いたより安全なシステムを設計するための重要な知見を提供する。
論文 参考訳(メタデータ) (2025-09-28T07:01:21Z) - LLM4MEA: Data-free Model Extraction Attacks on Sequential Recommenders via Large Language Models [50.794651919028965]
近年の研究では、モデル抽出攻撃(MEA)に対するシーケンシャルレコメンデータシステムの脆弱性が実証されている。
事前のMEAにおけるブラックボックス攻撃は、データ選択のランダムサンプリングによるレコメンデータシステムの脆弱性を明らかにするのに効果がない。
LLM4MEAは,Large Language Models (LLMs) を人間のようなランク付けとして活用してデータを生成する新しいモデル抽出法である。
論文 参考訳(メタデータ) (2025-07-22T19:20:23Z) - Towards Adversarially Robust Deep Metric Learning [0.8702432681310401]
ディープニューラルネットワークは敵の攻撃を受けやすいため、敵の例によって簡単に騙される可能性がある。
既存の作業は、DMLモデルの堅牢性を徹底的に検査することができない。
我々は,アンサンブル学習と対人訓練を利用する新しい防衛法である「アンサンブル・アディバーショナル・トレーニング(EAT)」を提案する。
論文 参考訳(メタデータ) (2025-01-02T03:15:25Z) - Mitigating the Backdoor Effect for Multi-Task Model Merging via Safety-Aware Subspace [15.457992715866995]
本稿では,タスク干渉とバックドア脆弱性を同時に軽減する新しいDAM手法を提案する。
既存のマージ手法と比較して、DAMはパフォーマンスとセキュリティのバランスが良く、攻撃成功率を2-10ポイント削減する。
論文 参考訳(メタデータ) (2024-10-17T00:13:31Z) - Here's a Free Lunch: Sanitizing Backdoored Models with Model Merge [17.3048898399324]
オープンソースイニシアチブによる事前訓練された言語モデルの民主化は、急速に革新と最先端技術へのアクセスを拡大している。
特定の入力によって隠れた悪意のある振る舞いが引き起こされ、自然言語処理(NLP)システムの完全性と信頼性を損なうバックドア攻撃。
本稿では,バックドアモデルと他の同質モデルとを組み合わせることで,バックドアの脆弱性を著しく改善することができることを示唆する。
論文 参考訳(メタデータ) (2024-02-29T16:37:08Z) - Effective Backdoor Mitigation in Vision-Language Models Depends on the Pre-training Objective [71.39995120597999]
現代の機械学習モデルは、敵の攻撃やバックドア攻撃に弱い。
このようなリスクは、マルチモーダルモデルをトレーニングするための大規模なインターネットソースデータセット収集の一般的なプラクティスによって高められている。
CleanCLIPは、マルチモーダルモデルにおけるバックドア効果を軽減するための最先端のアプローチである。
論文 参考訳(メタデータ) (2023-11-25T06:55:13Z) - ML-Doctor: Holistic Risk Assessment of Inference Attacks Against Machine
Learning Models [64.03398193325572]
機械学習(ML)モデルに対する推論攻撃により、敵はトレーニングデータやモデルパラメータなどを学ぶことができる。
私たちは、メンバシップ推論、モデル反転、属性推論、モデル盗難の4つの攻撃に集中しています。
私たちの分析では、MLモデルオーナがモデルをデプロイするリスクを評価することができる、モジュール化された再使用可能なソフトウェアであるML-Doctorに依存しています。
論文 参考訳(メタデータ) (2021-02-04T11:35:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。