論文の概要: VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark
- arxiv url: http://arxiv.org/abs/2403.07350v3
- Date: Tue, 29 Oct 2024 09:31:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-30 13:38:28.147653
- Title: VLKEB: A Large Vision-Language Model Knowledge Editing Benchmark
- Title(参考訳): VLKEB: ベンチマークを編集する大規模視覚言語モデル知識
- Authors: Han Huang, Haitian Zhong, Tao Yu, Qiang Liu, Shu Wu, Liang Wang, Tieniu Tan,
- Abstract要約: 大規模言語モデル(LLM)の知識編集は注目されている。
3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質が不足している。
我々は、新しいLarge $textbfV$ision-$textbfL$anguage Modelを構築するために、より信頼性の高いデータ収集手法を使用します。
- 参考スコア(独自算出の注目度): 53.091690659399234
- License:
- Abstract: Recently, knowledge editing on large language models (LLMs) has received considerable attention. Compared to this, editing Large Vision-Language Models (LVLMs) faces extra challenges from diverse data modalities and complicated model components, and data for LVLMs editing are limited. The existing LVLM editing benchmark, which comprises three metrics (Reliability, Locality, and Generality), falls short in the quality of synthesized evaluation images and cannot assess whether models apply edited knowledge in relevant content. Therefore, we employ more reliable data collection methods to construct a new Large $\textbf{V}$ision-$\textbf{L}$anguage Model $\textbf{K}$nowledge $\textbf{E}$diting $\textbf{B}$enchmark, $\textbf{VLKEB}$, and extend the Portability metric for more comprehensive evaluation. Leveraging a multi-modal knowledge graph, our image data are bound with knowledge entities. This can be further used to extract entity-related knowledge, which constitutes the base of editing data. We conduct experiments of different editing methods on five LVLMs, and thoroughly analyze how do they impact the models. The results reveal strengths and deficiencies of these methods and hopefully provide insights for future research. The codes and dataset are available at: https://github.com/VLKEB/VLKEB.
- Abstract(参考訳): 近年,大規模言語モデル(LLM)の知識編集が注目されている。
これと比較して、LVLM(Large Vision-Language Models)の編集は、多様なデータモダリティと複雑なモデルコンポーネントによる追加の課題に直面しており、LVLMの編集のためのデータは限られている。
3つのメトリクス(信頼性、局所性、一般性)からなる既存のLVLM編集ベンチマークは、合成された評価画像の品質に乏しく、関連するコンテンツにモデルが編集知識を適用するかどうかを評価することができない。
したがって、我々は、新しいLarge $\textbf{V}$ision-$\textbf{L}$anguage Model $\textbf{K}$nowledge $\textbf{E}$diting $\textbf{B}$enchmark, $\textbf{VLKEB}$を構築し、より包括的な評価のためにPortabilityメトリックを拡張します。
マルチモーダルな知識グラフを活用することで、画像データは知識エンティティと結びついています。
これは、データの編集基盤を構成するエンティティ関連の知識を抽出するためにさらに使用できる。
5つのLVLM上で異なる編集方法の実験を行い、それらがモデルにどのように影響するかを徹底的に分析する。
その結果,これらの手法の長所と短所が明らかとなり,今後の研究への洞察が期待できる。
コードとデータセットは、https://github.com/VLKEB/VLKEBで入手できる。
関連論文リスト
- Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit [18.71195974474024]
我々は、トークン予測のための視覚表現の寄与を測定するために、コントリビューションアロケーションとノイズ摂動法を用いる。
帰属分析により,このプロンプトに非常に関係のある中後期層における視覚的表現が予測に大きく寄与していることが示唆された。
そこで我々はVisEditを提案する。VisEditはVis-LLMsの新しいモデルエディタで、編集プロンプトに重要な領域の中間的な視覚表現を編集することで知識を効果的に修正する。
論文 参考訳(メタデータ) (2024-08-19T11:44:40Z) - Detecting Edited Knowledge in Language Models [5.260519479124422]
知識編集手法(KEs)は、事前学習から学んだ言語モデルの古いまたは不正確な知識を更新することができる。
生成されたアウトプットが編集された知識に基づいているか、あるいは事前学習からのファーストハンド知識に基づいているかを知ることは、生成モデルに対するユーザの信頼を高めることができる。
本稿では,言語モデルにおける編集された知識を検出する新しい課題を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:24Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
最近のモデル編集は、大規模言語モデル(LLM)の少量の知識を効率的に更新するための有望な手法である
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
我々は、textscCounterFactおよびzsREデータセット上でSWEA$oplus$OSのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。