論文の概要: Beyond Binary Edits Robust Multimodal Knowledge Editing with Adversarial Subspace Alignment
- arxiv url: http://arxiv.org/abs/2605.23780v1
- Date: Fri, 22 May 2026 15:46:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-25 17:29:20.419098
- Title: Beyond Binary Edits Robust Multimodal Knowledge Editing with Adversarial Subspace Alignment
- Title(参考訳): 逆部分空間アライメントによるロバストなマルチモーダル知識編集
- Authors: Haoyuan Wang, Xiaohao Liu, Jiajie Su, Jianmao Xiao, Chaochao Chen,
- Abstract要約: マルチモーダル大規模言語モデル(MLLM)は、既存の能力を劣化させることなく知識を更新するための効率的なメカニズムを必要とする。
内在的マルチモーダル知識編集では、しばしば限定的な一般性を示し、意味論的に等価な視覚的・言語的なバリエーションをまたいだ編集の伝播に失敗する。
この問題は、明示的な意味的監督の欠如、厳密な編集範囲、高次元マルチモーダル空間における個々のサンプルへの偏りによるアンカーの欠如から生じる。
我々は、意味論的に等価なマルチモーダル入力をグループ化する知識ユニットを形式化し、各ユニット内の一貫した予測として一般性を定義する。
- 参考スコア(独自算出の注目度): 17.054864006712318
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) need efficient mechanisms to update knowledge without degrading existing capabilities. While intrinsic multimodal knowledge editing achieves strong reliability and locality, it often exhibits limited generality, failing to propagate edits across semantically equivalent visual and linguistic variations. This issue arises from the lack of explicit semantic supervision, rigid editing scopes, and biased anchoring to individual samples in high-dimensional multimodal spaces. We address robust intrinsic multimodal knowledge editing by explicitly targeting generalization. We formalize robustness through knowledge units that group semantically equivalent multimodal inputs and define generality as consistent predictions within each unit. To expose fragile semantic regions, we introduce Latent Adversarial Robustification (LAR), which generates adversarial yet semantically coherent variants in the joint latent space. We further propose Rank-Constrained Subspace Learning (RCSL), enforcing low-rank alignment of adversarial representations at the edit layer via a singular value-based objective. Extensive analysis demonstrates the effectiveness of ASAM empirically.
- Abstract(参考訳): マルチモーダル大規模言語モデル(MLLM)は、既存の能力を劣化させることなく知識を更新するための効率的なメカニズムを必要とする。
内在的マルチモーダル知識編集は信頼性と局所性を強く達成するが、しばしば限定的な一般性を示し、意味論的に等価な視覚的・言語的なバリエーションで編集を広めることができない。
この問題は、明示的な意味的監督の欠如、厳密な編集範囲、高次元マルチモーダル空間における個々のサンプルへの偏りによるアンカーの欠如から生じる。
一般化を明示的に対象とすることで,頑健な内在的マルチモーダル知識の編集に対処する。
意味論的に等価なマルチモーダル入力をグループ化する知識単位によるロバストネスを定式化し、各単位内の一貫した予測として一般性を定義する。
脆弱なセマンティック領域を明らかにするために,LAR(Latent Adversarial Robustification)を導入し,LAR(Latent Adversarial Robustification)とLAR(Latent Adversarial Robustification)とLAR(Latent Adversarial Robustification)とLAR(Latent Adversarial Robustification)を併用した。
さらに,Rランク制約付き部分空間学習(RCSL)を提案する。
広範囲な分析は、ASAMの有効性を実証的に示す。
関連論文リスト
- From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - UniAlignment: Semantic Alignment for Unified Image Generation, Understanding, Manipulation and Perception [54.53657134205492]
UniAlignmentは単一の拡散変換器内での統一されたマルチモーダル生成フレームワークである。
固有モード意味アライメントとクロスモーダル意味アライメントの両方を組み込むことで、モデルのクロスモーダル一貫性と命令追従ロバスト性を高める。
本稿では、複雑なテキスト命令下でのマルチモーダルなセマンティック一貫性を評価するために設計された新しいベンチマークであるSemGen-Benchを紹介する。
論文 参考訳(メタデータ) (2025-09-28T09:11:30Z) - Explaining multimodal LLMs via intra-modal token interactions [55.27436637894534]
MLLM(Multimodal Large Language Models)は、様々な視覚言語タスクにおいて顕著な成功を収めているが、その内部決定機構は十分に理解されていない。
モーダル内相互作用を利用した解釈可能性の向上を提案する。
論文 参考訳(メタデータ) (2025-09-26T14:39:13Z) - What Makes You Unique? Attribute Prompt Composition for Object Re-Identification [70.67907354506278]
Object Re-IDentificationは、重複しないカメラビューで個人を認識することを目的としている。
単一ドメインモデルはドメイン固有の機能に過度に適合する傾向がありますが、クロスドメインモデルは多種多様な正規化戦略に依存します。
本稿では,テキストのセマンティクスを利用して識別と一般化を協調的に強化する属性プロンプト合成フレームワークを提案する。
論文 参考訳(メタデータ) (2025-09-23T07:03:08Z) - NEXT: Multi-Grained Mixture of Experts via Text-Modulation for Multi-Modal Object Re-Identification [17.10113184019939]
ReID(Multi-modal object Re-Identification)は、不均一なモーダルをまたいだ正確な同一性を実現することを目的としている。
本稿では属性信頼度に基づく信頼性の高いキャプション生成パイプラインを提案する。
また,多様なIDパターンをモデル化するための新しいReIDフレームワークであるNEXTを提案する。
論文 参考訳(メタデータ) (2025-05-26T13:52:28Z) - Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration [107.31481207855835]
内在的知識の編集や外部知識の活用といった現在の手法は、それぞれに長所と短所がある。
固有知識編集と外部知識を活用した統一的な視点を確立するための,新しいマルチモーダル編集手法UniKEを提案する。
論文 参考訳(メタデータ) (2024-09-30T02:13:53Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。