論文の概要: Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit
- arxiv url: http://arxiv.org/abs/2408.09916v1
- Date: Mon, 19 Aug 2024 11:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:35:10.997087
- Title: Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit
- Title(参考訳): Attribution Analysis with Model Editing:Advanced Knowledge Correction in Vision Language Models with VisEdit
- Authors: Qizhou Chen, Taolin Zhang, Chengyu Wang, Xiaofeng He, Dakan Wang, Tingting Liu,
- Abstract要約: 我々は、トークン予測のための視覚表現の寄与を測定するために、コントリビューションアロケーションとノイズ摂動法を用いる。
帰属分析により,このプロンプトに非常に関係のある中後期層における視覚的表現が予測に大きく寄与していることが示唆された。
そこで我々はVisEditを提案する。VisEditはVis-LLMsの新しいモデルエディタで、編集プロンプトに重要な領域の中間的な視覚表現を編集することで知識を効果的に修正する。
- 参考スコア(独自算出の注目度): 18.71195974474024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model editing aims to correct outdated or erroneous knowledge in large models without costly retraining. Recent research discovered that the mid-layer representation of the subject's final token in a prompt has a strong influence on factual predictions, and developed Large Language Model (LLM) editing techniques based on this observation. However, for Vision-LLMs (VLLMs), how visual representations impact the predictions from a decoder-only language model remains largely unexplored. To the best of our knowledge, model editing for VLLMs has not been extensively studied in the literature. In this work, we employ the contribution allocation and noise perturbation methods to measure the contributions of visual representations for token predictions. Our attribution analysis shows that visual representations in mid-to-later layers that are highly relevant to the prompt contribute significantly to predictions. Based on these insights, we propose VisEdit, a novel model editor for VLLMs that effectively corrects knowledge by editing intermediate visual representations in regions important to the edit prompt. We evaluated VisEdit using multiple VLLM backbones and public VLLM editing benchmark datasets. The results show the superiority of VisEdit over the strong baselines adapted from existing state-of-the-art editors for LLMs.
- Abstract(参考訳): モデル編集は、コストのかかる再トレーニングなしに、大規模なモデルにおける時代遅れまたは誤った知識を修正することを目的としている。
近年の研究では,プロンプトにおける最終トークンの中間層表現が事実予測に強い影響を与えていることが判明し,この観測に基づいて大規模言語モデル(LLM)編集技術を開発した。
しかし、Vision-LLMs (VLLMs) では、デコーダのみの言語モデルからの予測に視覚的表現がどのように影響するかは明らかにされていない。
我々の知る限り、VLLMのモデル編集は文献で広く研究されていない。
本研究では,トークン予測における視覚表現の寄与を測定するために,コントリビューションアロケーションとノイズ摂動手法を用いる。
帰属分析により,このプロンプトに非常に関係のある中後期層における視覚的表現が予測に大きく寄与していることが示唆された。
これらの知見に基づき,VLLM のための新しいモデルエディタである VisEdit を提案し,編集プロンプトに重要な領域の中間的な視覚表現を編集することで,知識を効果的に修正する。
複数のVLLMバックボーンと公開VLLM編集ベンチマークデータセットを用いてVisEditを評価した。
その結果,既存のLLMの最先端エディタに適応した強力なベースラインよりも,VisEditの方が優れていることがわかった。
関連論文リスト
- Lifelong Knowledge Editing for Vision Language Models with Low-Rank Mixture-of-Experts [17.376346967267327]
我々は、生涯LLM編集とビジョンLLM編集のギャップを埋めるために、LIfelong Vision言語modEl EditのLiveEditを提案する。
ビジュアルセマンティック知識を活用するためにハードフィルタリング機構を開発し、入力クエリの視覚的に無関係な専門家を排除した。
視覚的に関係のある専門家を統合するために,テキストの意味的関連性に基づくソフトルーティング機構を導入し,マルチエキスパート融合を実現する。
論文 参考訳(メタデータ) (2024-11-23T03:19:40Z) - Fine-Grained Verifiers: Preference Modeling as Next-token Prediction in Vision-Language Alignment [57.0121616203175]
本研究では,視覚言語アライメントを改善するための細粒度検証器として,モデル自身のビジュアルエンコーダを利用する新たな自己アライメント手法であるFiSAOを提案する。
ビジョンエンコーダからのトークンレベルのフィードバックを活用することで、FiSAOは視覚言語アライメントを大幅に改善する。
論文 参考訳(メタデータ) (2024-10-18T03:34:32Z) - VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark [53.091690659399234]
大規模言語モデル(LLM)の知識編集は注目されている。
3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質が不足している。
我々は、新しいLarge $textbfV$ision-$textbfL$anguage Modelを構築するために、より信頼性の高いデータ収集手法を使用します。
論文 参考訳(メタデータ) (2024-03-12T06:16:33Z) - Editing Conceptual Knowledge for Large Language Models [65.38231526537476]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。
本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。
実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文 参考訳(メタデータ) (2024-03-10T16:57:10Z) - Knowledge Graph Enhanced Large Language Model Editing [37.6721061644483]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの進行において重要な要素である。
既存の編集方法は、編集に関連する知識の変化を追跡し、組み込むのに苦労する。
知識グラフを利用した新しいモデル編集手法を提案し,LLM編集の強化,すなわちGLAMEを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:52:26Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
大規模言語モデル(LLM)におけるモデル編集の副作用を評価する。
分析の結果,モデルの重みを過度に修正したモデル編集によって副作用が生じることが明らかとなった。
これを軽減するために、修正の重み付けを正規化するためにRECTというメソッドが提案されている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。