論文の概要: MMKU-Bench: A Multimodal Update Benchmark for Diverse Visual Knowledge
- arxiv url: http://arxiv.org/abs/2603.15117v1
- Date: Mon, 16 Mar 2026 11:15:24 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-17 18:28:58.087885
- Title: MMKU-Bench: A Multimodal Update Benchmark for Diverse Visual Knowledge
- Title(参考訳): MMKU-Bench: 多様な視覚知識のためのマルチモーダル更新ベンチマーク
- Authors: Baochen Fu, Yuntao Du, Cheng Chang, Baihao Jin, Wenzhi Deng, Muhao Xu, Hongmei Yan, Weiye Song, Yi Wan,
- Abstract要約: 既存のマルチモーダル知識更新の研究は、これまで未知の知識を学習することのみに焦点を当てている。
評価は同じモダリティに限られており、クロスモーダル一貫性の体系的な解析が欠如している。
本稿では,マルチモーダル知識更新のための総合評価ベンチマークMMKU-Benchを提案する。
- 参考スコア(独自算出の注目度): 11.360592324472123
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As real-world knowledge continues to evolve, the parametric knowledge acquired by multimodal models during pretraining becomes increasingly difficult to remain consistent with real-world knowledge. Existing research on multimodal knowledge updating focuses only on learning previously unknown knowledge, while overlooking the need to update knowledge that the model has already mastered but that later changes; moreover, evaluation is limited to the same modality, lacking a systematic analysis of cross-modal consistency. To address these issues, this paper proposes MMKU-Bench, a comprehensive evaluation benchmark for multimodal knowledge updating, which contains over 25k knowledge instances and more than 49k images, covering two scenarios, updated knowledge and unknown knowledge, thereby enabling comparative analysis of learning across different knowledge types. On this benchmark, we evaluate a variety of representative approaches, including supervised fine-tuning (SFT), reinforcement learning from human feedback (RLHF), and knowledge editing (KE). Experimental results show that SFT and RLHF are prone to catastrophic forgetting, while KE better preserve general capabilities but exhibit clear limitations in continual updating. Overall, MMKU-Bench provides a reliable and comprehensive evaluation benchmark for multimodal knowledge updating, advancing progress in this field.
- Abstract(参考訳): 現実世界の知識が進化し続けるにつれて、事前訓練中にマルチモーダルモデルによって得られたパラメトリック知識は、現実の知識と整合性を維持することがますます困難になる。
既存のマルチモーダル知識更新の研究は、既知知識の学習にのみ焦点をあてる一方で、モデルが既に習得した知識を更新する必要性を見越す。
このような問題に対処するために,MMKU-Benchを提案する。MMKU-Benchは,25k以上の知識インスタンスと49k以上の画像を含むマルチモーダル知識更新のための総合的評価ベンチマークである。
このベンチマークでは、教師付き微調整(SFT)、人間からのフィードバックからの強化学習(RLHF)、知識編集(KE)など、さまざまな代表的アプローチを評価した。
実験結果から, SFTとRLHFは破滅的な忘れがちであり, KEは汎用性を保ちつつ, 連続更新において明らかな限界を呈することが明らかとなった。
MMKU-Benchは、マルチモーダル知識更新のための信頼性と総合的な評価ベンチマークを提供する。
関連論文リスト
- Multimodal Iterative RAG for Knowledge-Intensive Visual Question Answering [8.830228556155673]
MI-RAGは、推論を利用して検索を強化し、知識合成を取り入れて理解を深めるフレームワークである。
Encyclopedic VQA、InfoSeek、OK-VQAといった挑戦的なベンチマークの実験は、MI-RAGが検索リコールと回答精度の両方を著しく改善していることを示している。
論文 参考訳(メタデータ) (2025-08-31T11:14:54Z) - CoRe-MMRAG: Cross-Source Knowledge Reconciliation for Multimodal RAG [53.950029990391066]
マルチモーダルRAG(CoRe-MMRAG)のためのクロスソース知識textbfReconciliation
本稿では,知識ソース間の不整合を効果的に解決する新しいエンドツーエンドフレームワークを提案する。
KB-VQAベンチマークの実験では、CoRe-MMRAGはベースライン法よりも大幅に改善されている。
論文 参考訳(メタデータ) (2025-06-03T07:32:40Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Fine-Tuning or Retrieval? Comparing Knowledge Injection in LLMs [0.5461938536945721]
大規模言語モデル(LLM)は、事前訓練された重みの中に大量の事実情報をカプセル化する。
この知識は本質的に限られたものであり、トレーニングデータの特徴に大きく依存している。
教師なし微調整と検索拡張生成の2つの一般的なアプローチを比較した。
論文 参考訳(メタデータ) (2023-12-10T16:52:00Z) - A Unified End-to-End Retriever-Reader Framework for Knowledge-based VQA [67.75989848202343]
本稿では,知識に基づくVQAに向けて,エンド・ツー・エンドのレトリバー・リーダー・フレームワークを提案する。
我々は、視覚言語による事前学習モデルからの多モーダルな暗黙の知識に光を当て、知識推論の可能性を掘り下げた。
提案手法では,知識検索のガイダンスを提供するだけでなく,質問応答に対してエラーが発生しやすいケースも排除できる。
論文 参考訳(メタデータ) (2022-06-30T02:35:04Z) - A Unified Continuous Learning Framework for Multi-modal Knowledge
Discovery and Pre-training [73.7507857547549]
本稿では,継続的学習フレームワークにおける知識発見とマルチモーダル事前学習の統合を提案する。
知識発見のために、事前訓練されたモデルを用いてグラフ上のクロスモーダルリンクを識別する。
モデル事前トレーニングでは、モデル更新をガイドする外部知識として知識グラフが使用される。
論文 参考訳(メタデータ) (2022-06-11T16:05:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。