Fugu-MT 論文翻訳(概要): Beyond Binary Edits Robust Multimodal Knowledge Editing with Adversarial Subspace Alignment

論文の概要: Beyond Binary Edits Robust Multimodal Knowledge Editing with Adversarial Subspace Alignment

arxiv url: http://arxiv.org/abs/2605.23780v1
Date: Fri, 22 May 2026 15:46:10 GMT
ステータス: 翻訳完了
システム内更新日: 2026-05-25 17:29:20.419098
Title: Beyond Binary Edits Robust Multimodal Knowledge Editing with Adversarial Subspace Alignment
Title（参考訳）: 逆部分空間アライメントによるロバストなマルチモーダル知識編集
Authors: Haoyuan Wang, Xiaohao Liu, Jiajie Su, Jianmao Xiao, Chaochao Chen,
Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、既存の能力を劣化させることなく知識を更新するための効率的なメカニズムを必要とする。内在的マルチモーダル知識編集では、しばしば限定的な一般性を示し、意味論的に等価な視覚的・言語的なバリエーションをまたいだ編集の伝播に失敗する。この問題は、明示的な意味的監督の欠如、厳密な編集範囲、高次元マルチモーダル空間における個々のサンプルへの偏りによるアンカーの欠如から生じる。我々は、意味論的に等価なマルチモーダル入力をグループ化する知識ユニットを形式化し、各ユニット内の一貫した予測として一般性を定義する。
参考スコア（独自算出の注目度）: 17.054864006712318
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Multimodal large language models (MLLMs) need efficient mechanisms to update knowledge without degrading existing capabilities. While intrinsic multimodal knowledge editing achieves strong reliability and locality, it often exhibits limited generality, failing to propagate edits across semantically equivalent visual and linguistic variations. This issue arises from the lack of explicit semantic supervision, rigid editing scopes, and biased anchoring to individual samples in high-dimensional multimodal spaces. We address robust intrinsic multimodal knowledge editing by explicitly targeting generalization. We formalize robustness through knowledge units that group semantically equivalent multimodal inputs and define generality as consistent predictions within each unit. To expose fragile semantic regions, we introduce Latent Adversarial Robustification (LAR), which generates adversarial yet semantically coherent variants in the joint latent space. We further propose Rank-Constrained Subspace Learning (RCSL), enforcing low-rank alignment of adversarial representations at the edit layer via a singular value-based objective. Extensive analysis demonstrates the effectiveness of ASAM empirically.
Abstract（参考訳）: マルチモーダル大規模言語モデル(MLLM)は、既存の能力を劣化させることなく知識を更新するための効率的なメカニズムを必要とする。内在的マルチモーダル知識編集は信頼性と局所性を強く達成するが、しばしば限定的な一般性を示し、意味論的に等価な視覚的・言語的なバリエーションで編集を広めることができない。この問題は、明示的な意味的監督の欠如、厳密な編集範囲、高次元マルチモーダル空間における個々のサンプルへの偏りによるアンカーの欠如から生じる。一般化を明示的に対象とすることで,頑健な内在的マルチモーダル知識の編集に対処する。意味論的に等価なマルチモーダル入力をグループ化する知識単位によるロバストネスを定式化し、各単位内の一貫した予測として一般性を定義する。脆弱なセマンティック領域を明らかにするために,LAR(Latent Adversarial Robustification)を導入し,LAR(Latent Adversarial Robustification)とLAR(Latent Adversarial Robustification)とLAR(Latent Adversarial Robustification)とLAR(Latent Adversarial Robustification)を併用した。さらに,Rランク制約付き部分空間学習(RCSL)を提案する。広範囲な分析は、ASAMの有効性を実証的に示す。

論文の概要: Beyond Binary Edits Robust Multimodal Knowledge Editing with Adversarial Subspace Alignment

関連論文リスト