Fugu-MT 論文翻訳(概要): Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

論文の概要: Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models

arxiv url: http://arxiv.org/abs/2603.04846v1
Date: Thu, 05 Mar 2026 06:01:26 GMT
ステータス: 翻訳完了
システム内更新日: 2026-03-06 22:06:11.094232
Title: Multi-Paradigm Collaborative Adversarial Attack Against Multi-Modal Large Language Models
Title（参考訳）: 多段階大規模言語モデルに対する多パラダイム協調型対外攻撃
Authors: Yuanbo Li, Tianyang Xu, Cong Hu, Tao Zhou, Xiao-Jun Wu, Josef Kittler,
Abstract要約: 本稿では,MLLMに対する敵例の転送可能性を高めるために,MPCAttack(Multi-Paradigm Collaborative Attack)フレームワークを提案する。 MPCOは異なるパラダイム表現の重要性を適応的にバランスさせ、グローバルな最適化を導く。我々のソリューションは、オープンソースおよびクローズドソースMLLMに対する標的および未ターゲットの攻撃において、常に最先端の手法よりも優れています。
参考スコア（独自算出の注目度）: 67.45032003041399
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: The rapid progress of Multi-Modal Large Language Models (MLLMs) has significantly advanced downstream applications. However, this progress also exposes serious transferable adversarial vulnerabilities. In general, existing adversarial attacks against MLLMs typically rely on surrogate models trained within a single learning paradigm and perform independent optimisation in their respective feature spaces. This straightforward setting naturally restricts the richness of feature representations, delivering limits on the search space and thus impeding the diversity of adversarial perturbations. To address this, we propose a novel Multi-Paradigm Collaborative Attack (MPCAttack) framework to boost the transferability of adversarial examples against MLLMs. In principle, MPCAttack aggregates semantic representations, from both visual images and language texts, to facilitate joint adversarial optimisation on the aggregated features through a Multi-Paradigm Collaborative Optimisation (MPCO) strategy. By performing contrastive matching on multi-paradigm features, MPCO adaptively balances the importance of different paradigm representations and guides the global perturbation optimisation, effectively alleviating the representation bias. Extensive experimental results on multiple benchmarks demonstrate the superiority of MPCAttack, indicating that our solution consistently outperforms state-of-the-art methods in both targeted and untargeted attacks on open-source and closed-source MLLMs. The code is released at https://github.com/LiYuanBoJNU/MPCAttack.
Abstract（参考訳）: MLLM(Multi-Modal Large Language Models)の急速な進歩は、下流のアプリケーションに大きな進歩をもたらした。しかし、この進歩は深刻な転送可能な敵の脆弱性を露呈する。一般に、MLLMに対する既存の敵攻撃は、通常、単一の学習パラダイム内で訓練された代理モデルに依存し、それぞれの特徴空間で独立した最適化を行う。この直接的な設定は、特徴表現の豊かさを自然に制限し、探索空間に制限を与え、敵の摂動の多様性を妨げる。そこで本稿では,MLLMに対する対向的事例の転送可能性を高めるために,MPCAttack(Multi-Paradigm Collaborative Attack)フレームワークを提案する。原則として、MPCAttackは、視覚画像と言語テキストの両方から意味表現を集約し、多パラダイム協調最適化(MPCO)戦略を通じて、集約された特徴に対する共同敵の最適化を容易にする。マルチパラダイムの特徴に対して対照的なマッチングを行うことにより、MPCOは異なるパラダイム表現の重要性を適応的にバランスさせ、グローバルな摂動最適化を導出し、表現バイアスを効果的に緩和する。複数のベンチマークによる大規模な実験結果から,MPCAttackの優位性が示され,オープンソースおよびクローズドソースのMLLMに対するターゲットおよび未ターゲットの攻撃において,我々のソリューションが常に最先端の手法よりも優れていたことが示唆された。コードはhttps://github.com/LiYuanBoJNU/MPCAttack.comで公開されている。

関連論文リスト

CREM: Compression-Driven Representation Enhancement for Multimodal Retrieval and Comprehension [49.6969505536365]
生成能力を保ちつつ、検索のためのマルチモーダル表現を強化する統一的なフレームワークであるCREMを提案する。 CREMはMMEB上での最先端検索性能を達成し,複数の理解ベンチマーク上での強力な生成性能を維持する。
論文参考訳（メタデータ） (2026-02-22T08:09:51Z)
Refer-Agent: A Collaborative Multi-Agent System with Reasoning and Reflection for Referring Video Object Segmentation [50.22481337087162]
Referring Video Object (RVOS) は、テキストクエリに基づくビデオ内のオブジェクトのセグメンテーションを目的としている。 Refer-Agent (Refer-Agent) は、共用多エージェントシステムである。
論文参考訳（メタデータ） (2026-02-03T14:48:12Z)
Multimodal Generative Engine Optimization: Rank Manipulation for Vision-Language Model Rankers [9.543953966473076]
視覚言語モデル(VLM)は、現代の検索とレコメンデーションシステムにおいて、ユニモーダルエンコーダを急速に置き換えている。本稿では、悪意あるアクターがターゲット商品を不当に宣伝することを可能にする、新たな敵対的枠組みを提案する。最先端モデルを用いた実世界のデータセット実験により、コーディネート攻撃はテキストのみと画像のみのベースラインを著しく上回ることを示した。
論文参考訳（メタデータ） (2026-01-18T04:58:28Z)
Hierarchical Refinement of Universal Multimodal Attacks on Vision-Language Models [41.79238283279954]
HRAは、サンプルレベルと最適化レベルの両方で普遍対向摂動(UAP)を洗練する。画像のモダリティについては、敵の例をクリーンな画像と摂動に切り離し、各コンポーネントを独立して扱うことができる。テキストのモダリティについて、HRAは文内重要度と文間重要度を組み合わせ、世界的影響力のある単語を識別する。
論文参考訳（メタデータ） (2026-01-15T11:45:56Z)
Importance Sampling for Multi-Negative Multimodal Direct Preference Optimization [68.64764778089229]
MISP-DPOはマルチモーダルDPOに複数の意味的に多様な負の画像を組み込む最初のフレームワークである。提案手法は,CLIP空間にプロンプトと候補画像を埋め込んで,意味的偏差を解釈可能な因子に発見するためにスパースオートエンコーダを適用する。 5つのベンチマーク実験により、MISP-DPOは従来手法よりも常にマルチモーダルアライメントを改善することが示された。
論文参考訳（メタデータ） (2025-09-30T03:24:09Z)
Pareto-Grid-Guided Large Language Models for Fast and High-Quality Heuristics Design in Multi-Objective Combinatorial Optimization [8.950269044886621]
多目的最適化問題(MOCOP)は、矛盾する目的の同時最適化を必要とする実用的応用においてしばしば発生する。 LLM(MPaGE)のPareto-Grid-Guided EvolutionによるMOCOPのマルチヒューリスティックスについて紹介する。 MPaGE は LLM を用いて、変異の間、意味的に異なる論理構造を優先順位付けし、多様性を促進し、集団内の冗長性を緩和する。
論文参考訳（メタデータ） (2025-07-28T15:26:43Z)
Principled Multimodal Representation Learning [99.53621521696051]
マルチモーダル表現学習は、多様なデータモダリティを統合することにより、統一された表現空間を作ろうとする。最近の進歩は、複数のモードの同時アライメントを調査しているが、いくつかの課題が残っている。複数モーダルの同時アライメントを実現する新しいフレームワークであるPMRL(Principled Multimodal Representation Learning)を提案する。
論文参考訳（メタデータ） (2025-07-23T09:12:25Z)
Can LLMs Deceive CLIP? Benchmarking Adversarial Compositionality of Pre-trained Multimodal Representation via Text Updates [37.65554922794508]
偽テキストのサンプルを生成するために、MAC(Multimodal Adversarial Compositionality)を導入する。我々は、サンプルワイド攻撃の成功率とグループワイドエントロピーに基づく多様性を両立させて評価した。 Llama-3.1-8Bのようなより小さな言語モデルを用いて、我々の手法は構成上の脆弱性を明らかにする上で優れた性能を示す。
論文参考訳（メタデータ） (2025-05-28T23:45:55Z)
MAA: Meticulous Adversarial Attack against Vision-Language Pre-trained Models [30.04163729936878]
Meticulous Adrial Attack (MAA) は、個々のサンプルのモデルに依存しない特性と脆弱性を完全に活用する。 MAAは、新しいリサイズ・スライディング作物(RScrop)技術を開発することにより、敵画像のきめ細かい最適化を強調している。
論文参考訳（メタデータ） (2025-02-12T02:53:27Z)
Unified Generative and Discriminative Training for Multi-modal Large Language Models [88.84491005030316]
生成的トレーニングにより、視覚言語モデル(VLM)は様々な複雑なタスクに取り組むことができる。 CLIPのようなモデルで実証された差別的トレーニングは、ゼロショットイメージテキストの分類と検索に優れています。本稿では,両パラダイムの強みを統合する統一的アプローチを提案する。
論文参考訳（メタデータ） (2024-11-01T01:51:31Z)
Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文参考訳（メタデータ） (2024-10-07T17:16:20Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。