論文の概要: MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge
Editing
- arxiv url: http://arxiv.org/abs/2402.14835v1
- Date: Sun, 18 Feb 2024 07:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:37:51.094338
- Title: MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge
Editing
- Title(参考訳): MIKE: きめ細かいマルチモーダルエンティティ知識編集のためのベンチマーク
- Authors: Jiaqi Li, Miaozeng Du, Chuanyi Zhang, Yongrui Chen, Nan Hu, Guilin Qi,
Haiyun Jiang, Siyuan Cheng, Bozhong Tian
- Abstract要約: マルチモーダル知識編集は、マルチモーダル大言語モデル(MLLM)の能力向上における重要な進歩である
現在のベンチマークは主に粗粒度知識に焦点が当てられており、細粒度(FG)マルチモーダル実体知識の複雑さはほとんど解明されていない。
このギャップを埋めるために、我々はFGマルチモーダルエンティティ知識編集用に特別に設計された総合的なベンチマークとデータセットであるMIKEを紹介する。
- 参考スコア(独自算出の注目度): 21.760293271882997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal knowledge editing represents a critical advancement in enhancing
the capabilities of Multimodal Large Language Models (MLLMs). Despite its
potential, current benchmarks predominantly focus on coarse-grained knowledge,
leaving the intricacies of fine-grained (FG) multimodal entity knowledge
largely unexplored. This gap presents a notable challenge, as FG entity
recognition is pivotal for the practical deployment and effectiveness of MLLMs
in diverse real-world scenarios. To bridge this gap, we introduce MIKE, a
comprehensive benchmark and dataset specifically designed for the FG multimodal
entity knowledge editing. MIKE encompasses a suite of tasks tailored to assess
different perspectives, including Vanilla Name Answering, Entity-Level Caption,
and Complex-Scenario Recognition. In addition, a new form of knowledge editing,
Multi-step Editing, is introduced to evaluate the editing efficiency. Through
our extensive evaluations, we demonstrate that the current state-of-the-art
methods face significant challenges in tackling our proposed benchmark,
underscoring the complexity of FG knowledge editing in MLLMs. Our findings
spotlight the urgent need for novel approaches in this domain, setting a clear
agenda for future research and development efforts within the community.
- Abstract(参考訳): マルチモーダル知識編集は,MLLM(Multimodal Large Language Models)の能力向上における重要な進歩である。
その可能性にもかかわらず、現在のベンチマークは主に粗粒度知識に重点を置いており、細粒度(FG)マルチモーダルエンティティ知識の複雑さはほとんど解明されていない。
このギャップは、さまざまな実世界のシナリオにおけるMLLMの実践的展開と有効性において、FGエンティティ認識が重要な課題であることを示している。
このギャップを埋めるために、我々はFGマルチモーダルエンティティ知識編集用に設計された包括的なベンチマークとデータセットであるMIKEを紹介する。
MIKEには、Vanilla Name Answering、Entity-Level Caption、Complex-Scenario Recognitionなど、さまざまな視点を評価するための一連のタスクが含まれている。
また,新たな知識編集形式であるマルチステップ編集を導入し,編集効率を評価する。
本研究では, MLLMにおけるFG知識編集の複雑さを浮き彫りにして, 提案したベンチマークに対処する上で, 現在の最先端手法が重大な課題に直面していることを示す。
本研究は,この領域における新たなアプローチの急激なニーズを浮き彫りにして,コミュニティにおける今後の研究・開発活動に向けた明確な議題を定めている。
関連論文リスト
- Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models [22.26930296101678]
既存の知識編集は、主にテキスト指向で粗いシナリオに焦点を当てている。
本稿では,複数の対話型エンティティを持つ画像の正確な編集をターゲットとした,視覚指向できめ細かなマルチモーダル知識編集タスクを提案する。
論文 参考訳(メタデータ) (2024-11-19T14:49:36Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。
本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。
鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文 参考訳(メタデータ) (2024-10-16T07:49:13Z) - Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration [107.31481207855835]
内在的知識の編集や外部知識の活用といった現在の手法は、それぞれに長所と短所がある。
固有知識編集と外部知識を活用した統一的な視点を確立するための,新しいマルチモーダル編集手法UniKEを提案する。
論文 参考訳(メタデータ) (2024-09-30T02:13:53Z) - Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。
我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。
既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文 参考訳(メタデータ) (2024-06-11T13:09:16Z) - Unlocking Multi-View Insights in Knowledge-Dense Retrieval-Augmented Generation [10.431782420943764]
本稿では,知識密度ドメインに適した新しいマルチビューRAGフレームワークであるMVRAGを紹介する。
法的および医学的事例検索実験は、リコール率と精度を著しく改善した。
論文 参考訳(メタデータ) (2024-04-19T13:27:38Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Multi-agent Reinforcement Learning: A Comprehensive Survey [10.186029242664931]
マルチエージェントシステム(MAS)は、多くの現実世界のアプリケーションにおいて広く普及し、重要な存在である。
汎用性にもかかわらず、MASにおける知的意思決定エージェントの開発は、その効果的な実装にいくつかのオープンな課題を提起している。
本調査は,ゲーム理論(GT)と機械学習(ML)による基礎概念の研究に重点を置いて,これらの課題を考察する。
論文 参考訳(メタデータ) (2023-12-15T23:16:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。