論文の概要: KEBench: A Benchmark on Knowledge Editing for Large Vision-Language
Models
- arxiv url: http://arxiv.org/abs/2403.07350v1
- Date: Tue, 12 Mar 2024 06:16:33 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-13 22:43:05.604990
- Title: KEBench: A Benchmark on Knowledge Editing for Large Vision-Language
Models
- Title(参考訳): KEBench: 大規模視覚言語モデルのための知識編集ベンチマーク
- Authors: Han Huang, Haitian Zhong, Qiang Liu, Shu Wu, Liang Wang, Tieniu Tan
- Abstract要約: LVLM(Large Vision-Language Models)の編集は、さまざまなモダリティ(画像とテキスト)を統合すると同時に、一貫性とコンテキストに関連のある修正を保証する。
既存のベンチマークには、LVLMの知識編集を測定するための3つのメトリクス(信頼性、局所性、一般性)がある。
我々は、新しいベンチマークを構築するために異なるデータ収集メソッド、$textbfKEBench$を採用し、包括的な評価のために新しいメトリック(移植性)を拡張します。
- 参考スコア(独自算出の注目度): 52.11803779918731
- License: http://creativecommons.org/licenses/by-sa/4.0/
- Abstract: Currently, little research has been done on knowledge editing for Large
Vision-Language Models (LVLMs). Editing LVLMs faces the challenge of
effectively integrating diverse modalities (image and text) while ensuring
coherent and contextually relevant modifications. An existing benchmark has
three metrics (Reliability, Locality and Generality) to measure knowledge
editing for LVLMs. However, the benchmark falls short in the quality of
generated images used in evaluation and cannot assess whether models
effectively utilize edited knowledge in relation to the associated content. We
adopt different data collection methods to construct a new benchmark,
$\textbf{KEBench}$, and extend new metric (Portability) for a comprehensive
evaluation. Leveraging a multimodal knowledge graph, our image data exhibits
clear directionality towards entities. This directional aspect can be further
utilized to extract entity-related knowledge and form editing data. We
conducted experiments of different editing methods on five LVLMs, and
thoroughly analyze how these methods impact the models. The results reveal
strengths and deficiencies of these methods and, hopefully, provide insights
into potential avenues for future research.
- Abstract(参考訳): 現在、LVLM(Large Vision-Language Models)の知識編集についてはほとんど研究されていない。
LVLMの編集は、多種多様なモダリティ(画像とテキスト)を効果的に統合し、コヒーレントで文脈的に関連する修正を保証するという課題に直面している。
既存のベンチマークには、LVLMの知識編集を測定するための3つのメトリクス(信頼性、局所性、一般性)がある。
しかし、このベンチマークは、評価に使用される生成画像の品質に欠けており、関連するコンテンツに関して、モデルが効果的に編集された知識を利用するかどうかを評価できない。
我々は、新しいベンチマークを構築するために異なるデータ収集メソッド、$\textbf{KEBench}$を採用し、包括的な評価のために新しいメトリック(ポータビリティ)を拡張する。
マルチモーダルな知識グラフを利用すると、画像データはエンティティに対する明確な方向性を示す。
この方向的側面は、さらにエンティティ関連の知識やフォーム編集データを抽出するために利用することができる。
5つのlvlm上で異なる編集方法の実験を行い,これらの方法がモデルに与える影響を徹底的に解析した。
その結果、これらの手法の長所と短所が明らかとなり、将来の研究への潜在的道の洞察が得られればと願っている。
関連論文リスト
- NeKo: Toward Post Recognition Generative Correction Large Language Models with Task-Oriented Experts [57.53692236201343]
提案するマルチタスク補正MOEでは,専門家が音声・テキスト・言語・テキスト・視覚・テキスト・データセットの「専門家」になるよう訓練する。
NeKoはマルチタスクモデルとして文法とポストOCR補正を競合的に実行している。
論文 参考訳(メタデータ) (2024-11-08T20:11:24Z) - Great Memory, Shallow Reasoning: Limits of $k$NN-LMs [71.73611113995143]
検索とnext-word予測を統合した$k$NN-LMsは、言語モデリングにおいて強力な性能を示している。
この改良された情報リコール能力が、本当に下流の能力に変換されるかどうかを問う。
論文 参考訳(メタデータ) (2024-08-21T17:59:05Z) - Attribution Analysis Meets Model Editing: Advancing Knowledge Correction in Vision Language Models with VisEdit [18.71195974474024]
我々は、トークン予測のための視覚表現の寄与を測定するために、コントリビューションアロケーションとノイズ摂動法を用いる。
帰属分析により,このプロンプトに非常に関係のある中後期層における視覚的表現が予測に大きく寄与していることが示唆された。
そこで我々はVisEditを提案する。VisEditはVis-LLMsの新しいモデルエディタで、編集プロンプトに重要な領域の中間的な視覚表現を編集することで知識を効果的に修正する。
論文 参考訳(メタデータ) (2024-08-19T11:44:40Z) - Detecting Edited Knowledge in Language Models [5.260519479124422]
知識編集手法(KEs)は、事前学習から学んだ言語モデルの古いまたは不正確な知識を更新することができる。
生成されたアウトプットが編集された知識に基づいているか、あるいは事前学習からのファーストハンド知識に基づいているかを知ることは、生成モデルに対するユーザの信頼を高めることができる。
本稿では,言語モデルにおける編集された知識を検出する新しい課題を提案する。
論文 参考訳(メタデータ) (2024-05-04T22:02:24Z) - Robust and Scalable Model Editing for Large Language Models [75.95623066605259]
LLM編集のスケーラビリティと堅牢性を向上させるため,EREN(Reading Notesによる編集モデル)を提案する。
既存の技術とは異なり、複数の編集から知識を統合することができ、構文的に類似しているが意味的に無関係な入力に正しく反応する。
論文 参考訳(メタデータ) (2024-03-26T06:57:23Z) - The Butterfly Effect of Model Editing: Few Edits Can Trigger Large Language Models Collapse [58.0132400208411]
単一の編集でさえモデル崩壊を引き起こし、様々なベンチマークタスクで大幅なパフォーマンス低下を示す。
編集後の大規模言語モデルのベンチマークは、過激な時間とリソース集約である。
我々は、GPT-3.5を用いて、ハードケースに基づいた新しいデータセット、HardEditを開発した。
論文 参考訳(メタデータ) (2024-02-15T01:50:38Z) - SWEA: Updating Factual Knowledge in Large Language Models via Subject Word Embedding Altering [17.20346072074533]
最近のモデル編集は、大規模言語モデル(LLM)の少量の知識を効率的に更新するための有望な手法である
本稿では,トークンレベルのマッチングによる埋め込みの編集を行うSWEAフレームワークを提案する。
我々は、textscCounterFactおよびzsREデータセット上でSWEA$oplus$OSのSOTA(State-of-the-art)パフォーマンスを実証する。
論文 参考訳(メタデータ) (2024-01-31T13:08:45Z) - VALUE: A Multi-Task Benchmark for Video-and-Language Understanding
Evaluation [124.02278735049235]
VALUEベンチマークは、幅広いビデオジャンル、ビデオの長さ、データボリューム、タスクの難易度をカバーすることを目的としている。
大規模なVidL事前学習による各種ベースライン法の評価を行った。
我々の最高のモデルと人間のパフォーマンスの間の大きなギャップは、先進的なVidLモデルの将来の研究を要求する。
論文 参考訳(メタデータ) (2021-06-08T18:34:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。