論文の概要: MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge
- arxiv url: http://arxiv.org/abs/2502.19870v2
- Date: Sat, 01 Mar 2025 08:16:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-03-04 13:05:17.077039
- Title: MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge
- Title(参考訳): MMKE-Bench: 多様な視覚知識のためのマルチモーダル編集ベンチマーク
- Authors: Yuntao Du, Kailin Jiang, Zhi Gao, Chenrui Shi, Zilong Zheng, Siyuan Qi, Qing Li,
- Abstract要約: 本稿では,MultiModal Knowledge Editing Benchmark であるMMKE-Benchを紹介する。
LMMが現実世界のシナリオで様々な視覚的知識を編集する能力を評価するように設計されている。
ビジュアルエンティティ編集、ビジュアルセマンティック編集、ユーザー固有の編集という3種類の編集タスクが組み込まれている。
知識は2,940点、画像は8,363点、評価質問は自動的に生成され、人間による検証が行われる。
- 参考スコア(独自算出の注目度): 35.323379110573406
- License:
- Abstract: Knowledge editing techniques have emerged as essential tools for updating the factual knowledge of large language models (LLMs) and multimodal models (LMMs), allowing them to correct outdated or inaccurate information without retraining from scratch. However, existing benchmarks for multimodal knowledge editing primarily focus on entity-level knowledge represented as simple triplets, which fail to capture the complexity of real-world multimodal information. To address this issue, we introduce MMKE-Bench, a comprehensive MultiModal Knowledge Editing Benchmark, designed to evaluate the ability of LMMs to edit diverse visual knowledge in real-world scenarios. MMKE-Bench addresses these limitations by incorporating three types of editing tasks: visual entity editing, visual semantic editing, and user-specific editing. Besides, MMKE-Bench uses free-form natural language to represent and edit knowledge, offering a more flexible and effective format. The benchmark consists of 2,940 pieces of knowledge and 8,363 images across 33 broad categories, with evaluation questions automatically generated and human-verified. We assess five state-of-the-art knowledge editing methods on three prominent LMMs, revealing that no method excels across all criteria, and that visual and user-specific edits are particularly challenging. MMKE-Bench sets a new standard for evaluating the robustness of multimodal knowledge editing techniques, driving progress in this rapidly evolving field.
- Abstract(参考訳): 知識編集技術は、大規模言語モデル(LLM)とマルチモーダルモデル(LMM)の事実知識を更新するための重要なツールとして登場し、スクラッチからリトレーニングすることなく、古い情報や不正確な情報を修正することができる。
しかし、既存のマルチモーダル知識編集のベンチマークは主に、実世界のマルチモーダル情報の複雑さを捉えるのに失敗する単純な三重項として表されるエンティティレベルの知識に焦点を当てている。
この問題に対処するために,LMMが現実世界のシナリオにおいて多様な視覚的知識を編集する能力を評価するための総合的マルチモーダル知識編集ベンチマークであるMMKE-Benchを紹介する。
MMKE-Benchは、ビジュアルエンティティ編集、ビジュアルセマンティック編集、ユーザー固有の編集という3種類の編集タスクを組み込むことで、これらの制限に対処する。
さらにMMKE-Benchは、知識の表現と編集に自由形式の自然言語を使用し、より柔軟で効果的なフォーマットを提供する。
このベンチマークは、33の幅広いカテゴリにわたる2,940の知識と8,363のイメージで構成され、評価質問が自動的に生成され、人間によって検証される。
我々は,3つの著名なLMM上での5つの最先端知識編集手法を評価し,すべての基準を横断する手法が存在しないこと,視覚的およびユーザ固有の編集が特に難しいことを明らかにする。
MMKE-Benchは、マルチモーダル知識編集技術の堅牢性を評価するための新しい標準を設定し、この急速に発展する分野の進歩を推進している。
関連論文リスト
- AnyEdit: Edit Any Knowledge Encoded in Language Models [69.30638272162267]
大規模言語モデル(LLM)のための新しい自動回帰編集パラダイムであるAnyEditを提案する。
長い形式の知識を逐次チャンクに分解し、各チャンク内のキートークンを反復的に編集し、一貫性と正確な出力を保証する。
UnKEBench、AKEW、そして我々の長文の多様な知識のための新しいEditEverythingデータセットを含むベンチマークでは、強いベースラインを21.5%上回っている。
論文 参考訳(メタデータ) (2025-02-08T16:18:37Z) - ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing [27.034072044001736]
大規模マルチモーダル言語モデル(MLLM)は、自然言語処理と視覚的理解に革命をもたらした。
現在の知識編集評価はスコープが限られており、バイアスがある可能性がある。
複数のデータセットから8つのタスクからなる総合的なベンチマークであるComprehendEditを紹介する。
論文 参考訳(メタデータ) (2024-12-17T11:41:49Z) - Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models [22.26930296101678]
既存の知識編集は、主にテキスト指向で粗いシナリオに焦点を当てている。
本稿では,複数の対話型エンティティを持つ画像の正確な編集をターゲットとした,視覚指向できめ細かなマルチモーダル知識編集タスクを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:49:36Z) - Cross-Lingual Multi-Hop Knowledge Editing [53.028586843468915]
言語横断的な設定で様々なSoTA知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。
具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。
次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
論文 参考訳(メタデータ) (2024-07-14T17:18:16Z) - MC-MKE: A Fine-Grained Multimodal Knowledge Editing Benchmark Emphasizing Modality Consistency [50.40318712497071]
MLLM(Multimodal large language model)は、非現実的または時代遅れの知識問題を引き起こす。
マルチモーダルな知識を視覚的およびテキスト的構成要素に分解する。
本稿では,マルチモーダル知識編集ベンチマークMC-MKEを提案する。
論文 参考訳(メタデータ) (2024-06-19T05:15:21Z) - MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge
Editing [21.760293271882997]
マルチモーダル知識編集は、マルチモーダル大言語モデル(MLLM)の能力向上における重要な進歩である
現在のベンチマークは主に粗粒度知識に焦点が当てられており、細粒度(FG)マルチモーダル実体知識の複雑さはほとんど解明されていない。
このギャップを埋めるために、我々はFGマルチモーダルエンティティ知識編集用に特別に設計された総合的なベンチマークとデータセットであるMIKEを紹介する。
論文 参考訳(メタデータ) (2024-02-18T07:15:03Z) - Generative Multi-Modal Knowledge Retrieval with Large Language Models [75.70313858231833]
マルチモーダル知識検索のための革新的なエンドツーエンド生成フレームワークを提案する。
我々のフレームワークは,大規模言語モデル(LLM)が仮想知識ベースとして効果的に機能するという事実を生かしている。
強いベースラインと比較すると,すべての評価指標に対して3.0%から14.6%の大幅な改善が見られた。
論文 参考訳(メタデータ) (2024-01-16T08:44:29Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。