論文の概要: Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit
- arxiv url: http://arxiv.org/abs/2408.09916v1
- Date: Mon, 19 Aug 2024 11:44:40 GMT
- ステータス: 処理完了
- システム内更新日: 2024-08-20 16:35:10.997087
- Title: Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit
- Title(参考訳): Attribution Analysis with Model Editing:Advanced Knowledge Correction in Vision Language Models with VisEdit
- Authors: Qizhou Chen, Taolin Zhang, Chengyu Wang, Xiaofeng He, Dakan Wang, Tingting Liu,
- Abstract要約: 我々は、トークン予測のための視覚表現の寄与を測定するために、コントリビューションアロケーションとノイズ摂動法を用いる。
帰属分析により,このプロンプトに非常に関係のある中後期層における視覚的表現が予測に大きく寄与していることが示唆された。
そこで我々はVisEditを提案する。VisEditはVis-LLMsの新しいモデルエディタで、編集プロンプトに重要な領域の中間的な視覚表現を編集することで知識を効果的に修正する。
- 参考スコア(独自算出の注目度): 18.71195974474024
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Model editing aims to correct outdated or erroneous knowledge in large models without costly retraining. Recent research discovered that the mid-layer representation of the subject's final token in a prompt has a strong influence on factual predictions, and developed Large Language Model (LLM) editing techniques based on this observation. However, for Vision-LLMs (VLLMs), how visual representations impact the predictions from a decoder-only language model remains largely unexplored. To the best of our knowledge, model editing for VLLMs has not been extensively studied in the literature. In this work, we employ the contribution allocation and noise perturbation methods to measure the contributions of visual representations for token predictions. Our attribution analysis shows that visual representations in mid-to-later layers that are highly relevant to the prompt contribute significantly to predictions. Based on these insights, we propose VisEdit, a novel model editor for VLLMs that effectively corrects knowledge by editing intermediate visual representations in regions important to the edit prompt. We evaluated VisEdit using multiple VLLM backbones and public VLLM editing benchmark datasets. The results show the superiority of VisEdit over the strong baselines adapted from existing state-of-the-art editors for LLMs.
- Abstract(参考訳): モデル編集は、コストのかかる再トレーニングなしに、大規模なモデルにおける時代遅れまたは誤った知識を修正することを目的としている。
近年の研究では,プロンプトにおける最終トークンの中間層表現が事実予測に強い影響を与えていることが判明し,この観測に基づいて大規模言語モデル(LLM)編集技術を開発した。
しかし、Vision-LLMs (VLLMs) では、デコーダのみの言語モデルからの予測に視覚的表現がどのように影響するかは明らかにされていない。
我々の知る限り、VLLMのモデル編集は文献で広く研究されていない。
本研究では,トークン予測における視覚表現の寄与を測定するために,コントリビューションアロケーションとノイズ摂動手法を用いる。
帰属分析により,このプロンプトに非常に関係のある中後期層における視覚的表現が予測に大きく寄与していることが示唆された。
これらの知見に基づき,VLLM のための新しいモデルエディタである VisEdit を提案し,編集プロンプトに重要な領域の中間的な視覚表現を編集することで,知識を効果的に修正する。
複数のVLLMバックボーンと公開VLLM編集ベンチマークデータセットを用いてVisEditを評価した。
その結果,既存のLLMの最先端エディタに適応した強力なベースラインよりも,VisEditの方が優れていることがわかった。
関連論文リスト
- VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark [53.091690659399234]
大規模言語モデル(LLM)の知識編集は注目されている。
3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質が不足している。
我々は、新しいLarge $textbfV$ision-$textbfL$anguage Modelを構築するために、より信頼性の高いデータ収集手法を使用します。
論文 参考訳(メタデータ) (2024-03-12T06:16:33Z) - Editing Conceptual Knowledge for Large Language Models [67.8410749469755]
本稿では,Large Language Models(LLMs)における概念知識の編集の先駆者となる。
本研究では,新しいベンチマークデータセットConceptEditを構築し,評価のための新しいメトリクスセットを確立する。
実験の結果,既存の編集手法は概念レベルの定義をある程度効率的に修正できるが,関連する瞬間的知識を歪ませる可能性も示された。
論文 参考訳(メタデータ) (2024-03-10T16:57:10Z) - Knowledge Graph Enhanced Large Language Model Editing [37.6721061644483]
大規模言語モデル(LLM)は、自然言語処理(NLP)タスクの進行において重要な要素である。
既存の編集方法は、編集に関連する知識の変化を追跡し、組み込むのに苦労する。
知識グラフを利用した新しいモデル編集手法を提案し,LLM編集の強化,すなわちGLAMEを提案する。
論文 参考訳(メタデータ) (2024-02-21T07:52:26Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - Model Editing Harms General Abilities of Large Language Models: Regularization to the Rescue [122.20016030723043]
モデル編集は、大きな言語モデル(LLM)を編集し、リソース集約的な再学習なしに幻覚を緩和する技術である。
現在のモデル編集方法は、特定の領域におけるモデルの振る舞いを効果的に修正することができる。
彼らはしばしば、LLMの一般的な能力に対する意図しない副作用の可能性を見落としている。
論文 参考訳(メタデータ) (2024-01-09T18:03:15Z) - Evaluating and Explaining Large Language Models for Code Using Syntactic
Structures [74.93762031957883]
本稿では,コード用大規模言語モデルに特有の説明可能性手法であるASTxplainerを紹介する。
その中核にあるASTxplainerは、トークン予測をASTノードに整合させる自動メソッドを提供する。
私たちは、最も人気のあるGitHubプロジェクトのキュレートデータセットを使用して、コード用の12の人気のあるLLMに対して、実証的な評価を行います。
論文 参考訳(メタデータ) (2023-08-07T18:50:57Z) - Memory-Based Model Editing at Scale [102.28475739907498]
既存のモデルエディタは、編集対象のスコープを正確にモデル化するのに苦労する。
SERAC(Retrieval-Augmented Counterfactal Model)を用いた半パラメトリック編集を提案する。
SERACは、編集を明示的なメモリに格納し、必要に応じてベースモデルの予測を変更できるように、それらを推論することを学ぶ。
論文 参考訳(メタデータ) (2022-06-13T23:40:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。