論文の概要: DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models
- arxiv url: http://arxiv.org/abs/2506.13638v1
- Date: Mon, 16 Jun 2025 16:04:16 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:48.900247
- Title: DualEdit: Dual Editing for Knowledge Updating in Vision-Language Models
- Title(参考訳): DualEdit:視覚言語モデルにおける知識更新のためのデュアル編集
- Authors: Zhiyi Shi, Binjie Wang, Chongjie Si, Yichen Wu, Junsik Kim, Hanspeter Pfister,
- Abstract要約: テキストと視覚の両方を各キー層で修正するエディタであるDualEditを提案する。
我々は、複数のVLMバックボーンとベンチマークデータセットにわたるDualEditを評価し、最先端のVLM編集ベースラインよりも優れていることを示す。
- 参考スコア(独自算出の注目度): 26.762431651154607
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Model editing aims to efficiently update a pre-trained model's knowledge without the need for time-consuming full retraining. While existing pioneering editing methods achieve promising results, they primarily focus on editing single-modal language models (LLMs). However, for vision-language models (VLMs), which involve multiple modalities, the role and impact of each modality on editing performance remain largely unexplored. To address this gap, we explore the impact of textual and visual modalities on model editing and find that: (1) textual and visual representations reach peak sensitivity at different layers, reflecting their varying importance; and (2) editing both modalities can efficiently update knowledge, but this comes at the cost of compromising the model's original capabilities. Based on our findings, we propose DualEdit, an editor that modifies both textual and visual modalities at their respective key layers. Additionally, we introduce a gating module within the more sensitive textual modality, allowing DualEdit to efficiently update new knowledge while preserving the model's original information. We evaluate DualEdit across multiple VLM backbones and benchmark datasets, demonstrating its superiority over state-of-the-art VLM editing baselines as well as adapted LLM editing methods on different evaluation metrics.
- Abstract(参考訳): モデル編集は、トレーニング済みのモデルの知識を、フルリトレーニングを必要とせずに効率的に更新することを目的としている。
既存の先駆的な編集手法は有望な結果をもたらすが、主に単一モーダル言語モデル(LLM)の編集に焦点を当てている。
しかし、複数のモダリティを含む視覚言語モデル(VLM)では、各モダリティが編集性能に与える影響は明らかにされていない。
このギャップに対処するために, モデル編集におけるテキストと視覚のモダリティの影響について検討し, 1) テキストと視覚の表現が異なる層におけるピーク感度に達すること,(2) 両方のモダリティの編集は知識を効率的に更新するが, モデルの本来の能力を補うコストがかかる。
提案するDualEditは,各キー層におけるテキストと視覚の両方のモダリティを編集するエディタである。
さらに、よりセンシティブなテキストモダリティ内にゲーティングモジュールを導入し、モデルのオリジナル情報を保存しながら、DualEditが新しい知識を効率的に更新できるようにする。
我々は,複数のVLMバックボーンとベンチマークデータセットにまたがるDualEditを評価し,現状のVLM編集ベースラインと異なる評価基準に基づくLLM編集方法よりも優れていることを実証した。
関連論文リスト
- One for All: Update Parameterized Knowledge Across Multiple Models [35.137065486616805]
大きな言語モデル(LLM)は、膨大な世界の知識を符号化するが、最新の状態を維持するのに苦労し、しばしば誤りや幻覚を引き起こす。
知識編集は、特定のモデルパラメータを更新することで、ターゲット変更を可能にする、リトレーニングの効果的な代替手段を提供する。
編集モジュールとしてプラグインモデルを用いる新しいアンサンブルベースのアプローチである OnceEdit を提案する。
論文 参考訳(メタデータ) (2025-06-01T03:48:54Z) - InComeS: Integrating Compression and Selection Mechanisms into LLMs for Efficient Model Editing [77.47790551485721]
In-context Learningは、コンテキストエンコーディングを通じて編集情報を解釈することで、有望な編集方法である。
この方法は、大きな言語モデルの限られたコンテキストウィンドウによって制約される。
編集コンテキストの処理能力を向上させるフレキシブルなフレームワークであるInComeSを提案する。
論文 参考訳(メタデータ) (2025-05-28T09:20:18Z) - What Changed? Detecting and Evaluating Instruction-Guided Image Edits with Multimodal Large Language Models [88.398085358514]
DICEは、原画像と編集画像の局所的な差異を検出するために設計されたモデルである。
自己監督、塗布ネットワークからの蒸留、全監督を利用する戦略を用いて訓練されている。
DICEは一貫性のある編集を効果的に識別し、異なる編集モデルによって生成された画像を人間の判断と強く相関して効果的に評価する。
論文 参考訳(メタデータ) (2025-05-26T18:00:10Z) - FireEdit: Fine-grained Instruction-based Image Editing via Region-aware Vision Language Model [54.693572837423226]
FireEditは、Region対応のVLMを利用する、革新的なインストラクションベースの画像編集フレームワークである。
FireEditは、ユーザの指示を正確に理解し、編集プロセスの効果的な制御を保証するように設計されている。
提案手法は,最先端の命令ベース画像編集手法を超越した手法である。
論文 参考訳(メタデータ) (2025-03-25T16:59:42Z) - DreamOmni: Unified Image Generation and Editing [51.45871494724542]
本稿では,画像生成と編集の統一モデルであるDream Omniを紹介する。
訓練のためにドリーム・オムニはT2I世代と下流のタスクを共同で訓練する。
このコラボレーションは、編集性能を大幅に向上させる。
論文 参考訳(メタデータ) (2024-12-22T17:17:28Z) - Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit [18.71195974474024]
我々は、トークン予測のための視覚表現の寄与を測定するために、コントリビューションアロケーションとノイズ摂動法を用いる。
帰属分析により,このプロンプトに非常に関係のある中後期層における視覚的表現が予測に大きく寄与していることが示唆された。
そこで我々はVisEditを提案する。VisEditはVis-LLMsの新しいモデルエディタで、編集プロンプトに重要な領域の中間的な視覚表現を編集することで知識を効果的に修正する。
論文 参考訳(メタデータ) (2024-08-19T11:44:40Z) - VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark [53.091690659399234]
大規模言語モデル(LLM)の知識編集は注目されている。
3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質が不足している。
我々は、新しいLarge $textbfV$ision-$textbfL$anguage Modelを構築するために、より信頼性の高いデータ収集手法を使用します。
論文 参考訳(メタデータ) (2024-03-12T06:16:33Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。