論文の概要: MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge
Editing
- arxiv url: http://arxiv.org/abs/2402.14835v1
- Date: Sun, 18 Feb 2024 07:15:03 GMT
- ステータス: 処理完了
- システム内更新日: 2024-03-03 19:37:51.094338
- Title: MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge
Editing
- Title(参考訳): MIKE: きめ細かいマルチモーダルエンティティ知識編集のためのベンチマーク
- Authors: Jiaqi Li, Miaozeng Du, Chuanyi Zhang, Yongrui Chen, Nan Hu, Guilin Qi,
Haiyun Jiang, Siyuan Cheng, Bozhong Tian
- Abstract要約: マルチモーダル知識編集は、マルチモーダル大言語モデル(MLLM)の能力向上における重要な進歩である
現在のベンチマークは主に粗粒度知識に焦点が当てられており、細粒度(FG)マルチモーダル実体知識の複雑さはほとんど解明されていない。
このギャップを埋めるために、我々はFGマルチモーダルエンティティ知識編集用に特別に設計された総合的なベンチマークとデータセットであるMIKEを紹介する。
- 参考スコア(独自算出の注目度): 21.760293271882997
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Multimodal knowledge editing represents a critical advancement in enhancing
the capabilities of Multimodal Large Language Models (MLLMs). Despite its
potential, current benchmarks predominantly focus on coarse-grained knowledge,
leaving the intricacies of fine-grained (FG) multimodal entity knowledge
largely unexplored. This gap presents a notable challenge, as FG entity
recognition is pivotal for the practical deployment and effectiveness of MLLMs
in diverse real-world scenarios. To bridge this gap, we introduce MIKE, a
comprehensive benchmark and dataset specifically designed for the FG multimodal
entity knowledge editing. MIKE encompasses a suite of tasks tailored to assess
different perspectives, including Vanilla Name Answering, Entity-Level Caption,
and Complex-Scenario Recognition. In addition, a new form of knowledge editing,
Multi-step Editing, is introduced to evaluate the editing efficiency. Through
our extensive evaluations, we demonstrate that the current state-of-the-art
methods face significant challenges in tackling our proposed benchmark,
underscoring the complexity of FG knowledge editing in MLLMs. Our findings
spotlight the urgent need for novel approaches in this domain, setting a clear
agenda for future research and development efforts within the community.
- Abstract(参考訳): マルチモーダル知識編集は,MLLM(Multimodal Large Language Models)の能力向上における重要な進歩である。
その可能性にもかかわらず、現在のベンチマークは主に粗粒度知識に重点を置いており、細粒度(FG)マルチモーダルエンティティ知識の複雑さはほとんど解明されていない。
このギャップは、さまざまな実世界のシナリオにおけるMLLMの実践的展開と有効性において、FGエンティティ認識が重要な課題であることを示している。
このギャップを埋めるために、我々はFGマルチモーダルエンティティ知識編集用に設計された包括的なベンチマークとデータセットであるMIKEを紹介する。
MIKEには、Vanilla Name Answering、Entity-Level Caption、Complex-Scenario Recognitionなど、さまざまな視点を評価するための一連のタスクが含まれている。
また,新たな知識編集形式であるマルチステップ編集を導入し,編集効率を評価する。
本研究では, MLLMにおけるFG知識編集の複雑さを浮き彫りにして, 提案したベンチマークに対処する上で, 現在の最先端手法が重大な課題に直面していることを示す。
本研究は,この領域における新たなアプローチの急激なニーズを浮き彫りにして,コミュニティにおける今後の研究・開発活動に向けた明確な議題を定めている。
関連論文リスト
- Unlocking Multi-View Insights in Knowledge-Dense Retrieval-Augmented Generation [10.431782420943764]
本稿では,知識密度ドメインに適した新しいマルチビューRAGフレームワークであるMVRAGを紹介する。
法的および医学的事例検索実験は、リコール率と精度を著しく改善した。
論文 参考訳(メタデータ) (2024-04-19T13:27:38Z) - KEBench: A Benchmark on Knowledge Editing for Large Vision-Language
Models [52.11803779918731]
LVLM(Large Vision-Language Models)の編集は、さまざまなモダリティ(画像とテキスト)を統合すると同時に、一貫性とコンテキストに関連のある修正を保証する。
既存のベンチマークには、LVLMの知識編集を測定するための3つのメトリクス(信頼性、局所性、一般性)がある。
我々は、新しいベンチマークを構築するために異なるデータ収集メソッド、$textbfKEBench$を採用し、包括的な評価のために新しいメトリック(移植性)を拡張します。
論文 参考訳(メタデータ) (2024-03-12T06:16:33Z) - Lumen: Unleashing Versatile Vision-Centric Capabilities of Large
Multimodal Models [92.68883571206032]
本稿では,多目的視覚中心機能拡張を備えた大規模マルチモーダルモデルであるLumenという新しいLMMアーキテクチャを提案する。
我々はLMMの知覚能力の学習をタスク非依存およびタスク特化段階に分離する。
LumenはCOCO検出ベンチマークで既存のLMMベースのアプローチをはるかに上回り、視覚的なタスクにシームレスなスケーラビリティを示す。
論文 参考訳(メタデータ) (2024-03-12T04:13:45Z) - Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。
LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。
本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文 参考訳(メタデータ) (2024-02-23T06:04:23Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - Multi-agent Reinforcement Learning: A Comprehensive Survey [12.033444190665552]
この調査はマルチエージェントシステム(MAS)の領域を掘り下げ、学習の最適制御の複雑さを解き放つことに特に重点を置いている。
本調査の目的は、MASの様々な次元に関する総合的な洞察を提供することであり、無数の機会に光を当てることである。
論文 参考訳(メタデータ) (2023-12-15T23:16:54Z) - Large Model Based Referring Camouflaged Object Detection [51.80619142347807]
Referring camouflaged object detection (Ref-COD)は、テキストまたはビジュアル参照にマッチした特定のcamouflaged objectを分割することを目的とした、最近提案された問題である。
我々のモチベーションは、最近のMLLM(Multimodal Large Language Models)のセマンティックインテリジェンスと本質的な知識をフル活用して、この複雑なタスクを人間的な方法で分解することである。
MLKGと呼ばれるRef-CODのための大規模モデルベースマルチレベル知識誘導型マルチモーダル手法を提案する。
論文 参考訳(メタデータ) (2023-11-28T13:45:09Z) - ALCUNA: Large Language Models Meet New Knowledge [48.30457202012987]
本稿では,既存のエンティティ属性と関係を変化させることで,新たな知識を生み出すアプローチを提案する。
KnowGenでは、知識理解、分化、関連性におけるLLMの能力を評価するために、ALCUNAというベンチマークを導入する。
また、エンティティの類似性がモデルにおけるエンティティ知識の理解とコンテキストエンティティの影響に与える影響についても検討する。
論文 参考訳(メタデータ) (2023-10-23T11:40:05Z) - Editing Large Language Models: Problems, Methods, and Opportunities [51.903537096207]
本稿では, LLMのモデル編集に関わる問題, 方法, 機会を深く探究する。
本稿では,モデル編集に関わるタスク定義と課題の概観と,現在処理中の最も進歩的な手法の詳細な実証分析について述べる。
本研究の目的は,各編集手法の有効性と実現可能性に関する貴重な知見を提供することであり,特定のタスクやコンテキストに対して,最も適切な方法の選択に関する情報決定を行う上で,コミュニティを支援することである。
論文 参考訳(メタデータ) (2023-05-22T16:00:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。