論文の概要: DSCA: Dynamic Subspace Concept Alignment for Lifelong VLM Editing
- arxiv url: http://arxiv.org/abs/2604.07965v1
- Date: Thu, 09 Apr 2026 08:25:54 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-04-10 18:34:05.802058
- Title: DSCA: Dynamic Subspace Concept Alignment for Lifelong VLM Editing
- Title(参考訳): DSCA: 生涯VLM編集のための動的サブスペース概念アライメント
- Authors: Gyanendra Das, Sai Satyam Jena,
- Abstract要約: 生涯の編集は難しい作業であり、これまで学んだ概念を乱す傾向がある。
現在の手法では、知識を構造的に分離するのではなく、最適化によって編集をアルゴリズムで制御している。
本稿では,この制限を緩和する動的部分空間概念アライメント(DSCA)を提案する。
本手法は,1回の編集で98%,1000回の編集後に95%以上,幻覚を3~5%,連続的なチューニングチューニングベンチマークで最高の後方転送(BWT)スコアが得られた。
- 参考スコア(独自算出の注目度): 1.6830191160943109
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model editing aims to update knowledge to add new concepts and change relevant information without retraining. Lifelong editing is a challenging task, prone to disrupting previously learned concepts, especially for Vision Language Models (VLMs), because sequential edits can lead to degraded reasoning and cross modal misalignment. Existing VLM knowledge editing methods based on gated adapters, activation edits, and parameter merging techniques address catastrophic forgetting seen in full fine tuning; however, they still operate in the shared representation space of the VLM, where concepts are entangled, so edits interfere with other non relevant concepts. We hypothesize that this instability persists because current methods algorithmically control edits via optimization rather than structurally separating knowledge. We introduce Dynamic Subspace Concept Alignment (DSCA) which by design mitigates this limitation by decomposing the representation space into a set of orthogonal semantic subspaces and proposing edits only in those transformed spaces. These subspaces are obtained through incremental clustering and PCA on joint vision language representations. This process structurally isolates concepts, enabling precise, non interfering edits by turning isolation from a soft training objective into an architectural property. The surgical edits are guided by a multi term loss function for maintaining task fidelity, edit locality, and cross modal alignment. With the base model frozen, our method achieves 98 percent single edit success, remains over 95 percent after 1000 sequential edits, lowers hallucination by 3 to 5 percent, and achieves the best backward transfer (BWT) scores on continual instruction tuning benchmarks. Extensive experiments demonstrate DSCA state of the art stability and knowledge retention capability in continual lifelong editing across various datasets and benchmarks.
- Abstract(参考訳): モデル編集は知識を更新し、新しい概念を追加し、関連する情報を再訓練せずに変更することを目的としている。
生涯編集は難しい課題であり、特に視覚言語モデル(VLM)では、逐次的な編集が劣化した推論と横断的な修正に繋がる可能性があるため、以前に学んだ概念を混乱させる傾向がある。
ゲートアダプタ、アクティベーション編集、パラメータマージ技術に基づく既存のVLM知識編集手法は、完全な微調整で見られる破滅的な忘れに対処するが、概念が絡み合っているVLMの共有表現空間では、編集が他の非関連する概念に干渉する。
この不安定性は、現在の手法が知識を構造的に分離するのではなく、最適化によって編集をアルゴリズム的に制御しているため持続する、という仮説を立てる。
動的部分空間概念アライメント(DSCA)を導入し、表現空間を直交意味部分空間の集合に分解し、それらの変換空間にのみ編集を提案することにより、この制限を緩和する。
これらのサブスペースは、統合視覚言語表現上のインクリメンタルクラスタリングとPCAによって得られる。
このプロセスは概念を構造的に分離し、ソフトトレーニング目標からの分離をアーキテクチャ特性に変換することによって、正確に非干渉的な編集を可能にする。
手術編集は、タスクの忠実性を維持し、局所性を編集し、横断的なアライメントを維持するための多項損失関数によってガイドされる。
基本モデルの凍結により,本手法は88%の単一編集成功,1000回の逐次編集後の95%以上を達成し,幻覚率を3~5%低下させ,連続的な指導訓練ベンチマークにおいて最高の後方転送(BWT)スコアを得る。
大規模な実験では、様々なデータセットやベンチマークにわたる連続的な生涯編集において、DSCAの安定性と知識保持能力が実証されている。
関連論文リスト
- Information-Regularized Constrained Inversion for Stable Avatar Editing from Sparse Supervision [32.22231480259466]
本研究では、構造化アバターラテント空間における制約付き反転として編集を行う条件付き編集再構成フレームワークを提案する。
この方法は小さな部分空間行列で動作し、効率的に実装することができる。
論文 参考訳(メタデータ) (2026-04-03T08:46:54Z) - HulluEdit: Single-Pass Evidence-Consistent Subspace Editing for Mitigating Hallucinations in Large Vision-Language Models [39.753109625930506]
HulluEditはシングルパスで参照不要な介入フレームワークである。
モデルの隠された状態をサブスペースに分解する。
これにより視覚的接地を介さずに幻覚パターンを選択的に抑制することができる。
論文 参考訳(メタデータ) (2026-02-26T08:08:25Z) - Beyond Hard Writes and Rigid Preservation: Soft Recursive Least-Squares for Lifelong LLM Editing [16.768713543557443]
モデル編集は、関係のない振る舞いを保持しながら、再トレーニングすることなく、新しい事実やルールで事前訓練された更新を行う。
長い逐次編集のための最小二乗エディタ RLSEdit を提案する。
複数のモデルファミリの実験は、10K編集への安定したスケーリングを示し、編集成功と全体安定性の両方において強力なベースラインを達成している。
論文 参考訳(メタデータ) (2026-01-22T06:11:44Z) - EvoEdit: Evolving Null-space Alignment for Robust and Efficient Knowledge Editing [19.834477925624658]
大規模言語モデル(LLM)は、時代遅れまたは誤った知識を正すために継続的な更新を必要とする。
既存のアプローチは主に位置対応のフレームワークに基づいている。
本稿では,連続的なヌル空間アライメントによる破滅的干渉を緩和する新しい編集戦略であるEvoEditを紹介する。
論文 参考訳(メタデータ) (2025-10-11T21:36:14Z) - MEMOIR: Lifelong Model Editing with Minimal Overwrite and Informed Retention for LLMs [76.28901550926021]
寿命の長いモデル編集のための既存の方法は、妥協の一般化、過去の編集の妨害、長い編集シーケンスへのスケールの失敗である。
我々は,学習済みモデルのコア能力を保ちながら,残メモリを介して知識を注入する,新しいスケーラブルなフレームワークMEMOIRを提案する。
MeMOIRは信頼性、一般化、ローカリティのメトリクスにまたがる最先端のパフォーマンスを実現し、最小限の忘れ物で数千のシーケンシャルな編集にスケールする。
論文 参考訳(メタデータ) (2025-06-09T16:16:42Z) - Task-Oriented Diffusion Inversion for High-Fidelity Text-based Editing [60.730661748555214]
textbfTask-textbfOriented textbfDiffusion textbfInversion (textbfTODInv) は、特定の編集タスクに適した実際の画像を反転して編集する新しいフレームワークである。
ToDInvは相互最適化によってインバージョンと編集をシームレスに統合し、高い忠実さと正確な編集性を保証する。
論文 参考訳(メタデータ) (2024-08-23T22:16:34Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
近年のモデル編集は,大規模言語モデルの少数の知識を効率的に更新する上で有望な手法である。
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
SWEA$oplus$OSのCounterFactデータセットとzsREデータセット上でのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - Towards Counterfactual Image Manipulation via CLIP [106.94502632502194]
既存の方法は、顔画像の年齢や性別など、さまざまな視覚特性をリアルに編集することができる。
コントラスト・ランゲージ・イメージ・プレトレーニング(CLIP)を用いたテキスト駆動方式でこの問題を考察する。
定義済みのCLIP空間の方向を利用して、異なる視点から所望の方向に向けて編集を誘導する新しいコントラスト損失を設計する。
論文 参考訳(メタデータ) (2022-07-06T17:02:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。