Fugu-MT 論文翻訳(概要): MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge Editing

論文の概要: MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge Editing

arxiv url: http://arxiv.org/abs/2402.14835v1
Date: Sun, 18 Feb 2024 07:15:03 GMT
ステータス: 翻訳完了
システム内更新日: 2024-03-03 19:37:51.094338
Title: MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge Editing
Title（参考訳）: MIKE: きめ細かいマルチモーダルエンティティ知識編集のためのベンチマーク
Authors: Jiaqi Li, Miaozeng Du, Chuanyi Zhang, Yongrui Chen, Nan Hu, Guilin Qi, Haiyun Jiang, Siyuan Cheng, Bozhong Tian
Abstract要約: マルチモーダル知識編集は、マルチモーダル大言語モデル(MLLM)の能力向上における重要な進歩である現在のベンチマークは主に粗粒度知識に焦点が当てられており、細粒度(FG)マルチモーダル実体知識の複雑さはほとんど解明されていない。このギャップを埋めるために、我々はFGマルチモーダルエンティティ知識編集用に特別に設計された総合的なベンチマークとデータセットであるMIKEを紹介する。
参考スコア（独自算出の注目度）: 21.760293271882997
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Multimodal knowledge editing represents a critical advancement in enhancing the capabilities of Multimodal Large Language Models (MLLMs). Despite its potential, current benchmarks predominantly focus on coarse-grained knowledge, leaving the intricacies of fine-grained (FG) multimodal entity knowledge largely unexplored. This gap presents a notable challenge, as FG entity recognition is pivotal for the practical deployment and effectiveness of MLLMs in diverse real-world scenarios. To bridge this gap, we introduce MIKE, a comprehensive benchmark and dataset specifically designed for the FG multimodal entity knowledge editing. MIKE encompasses a suite of tasks tailored to assess different perspectives, including Vanilla Name Answering, Entity-Level Caption, and Complex-Scenario Recognition. In addition, a new form of knowledge editing, Multi-step Editing, is introduced to evaluate the editing efficiency. Through our extensive evaluations, we demonstrate that the current state-of-the-art methods face significant challenges in tackling our proposed benchmark, underscoring the complexity of FG knowledge editing in MLLMs. Our findings spotlight the urgent need for novel approaches in this domain, setting a clear agenda for future research and development efforts within the community.
Abstract（参考訳）: マルチモーダル知識編集は,MLLM(Multimodal Large Language Models)の能力向上における重要な進歩である。その可能性にもかかわらず、現在のベンチマークは主に粗粒度知識に重点を置いており、細粒度(FG)マルチモーダルエンティティ知識の複雑さはほとんど解明されていない。このギャップは、さまざまな実世界のシナリオにおけるMLLMの実践的展開と有効性において、FGエンティティ認識が重要な課題であることを示している。このギャップを埋めるために、我々はFGマルチモーダルエンティティ知識編集用に設計された包括的なベンチマークとデータセットであるMIKEを紹介する。 MIKEには、Vanilla Name Answering、Entity-Level Caption、Complex-Scenario Recognitionなど、さまざまな視点を評価するための一連のタスクが含まれている。また,新たな知識編集形式であるマルチステップ編集を導入し,編集効率を評価する。本研究では, MLLMにおけるFG知識編集の複雑さを浮き彫りにして, 提案したベンチマークに対処する上で, 現在の最先端手法が重大な課題に直面していることを示す。本研究は,この領域における新たなアプローチの急激なニーズを浮き彫りにして,コミュニティにおける今後の研究・開発活動に向けた明確な議題を定めている。

関連論文リスト

Taming the Untamed: Graph-Based Knowledge Retrieval and Reasoning for MLLMs to Conquer the Unknown [14.8657860984074]
マルチモーダルな大言語モデル(MLLM)は、限られた関連する知識のため、ほとんど遭遇しないドメイン固有のタスクで失敗することが多い。マルチモーダル・ナレッジグラフ (MH-MMKG) を構築し, マルチモーダルと複雑な実体関係を包含する。また,MH-MMKGに基づく複雑な知識検索と推論のためのモデルの能力を評価するために,一連の挑戦的なクエリを設計する。
論文参考訳（メタデータ） (2025-06-21T05:01:02Z)
On Path to Multimodal Generalist: General-Level and General-Bench [153.9720740167528]
本稿では,MLLMの性能と汎用性を5段階に定義した評価フレームワークであるGeneral-Levelを紹介する。フレームワークの中核はSynergyの概念であり、モデルが理解と生成をまたいだ一貫性のある機能を維持するかどうかを測定する。既存の100以上のMLLMを含む評価結果は、ジェネラリストの能力ランキングを明らかにする。
論文参考訳（メタデータ） (2025-05-07T17:59:32Z)
Exploring and Evaluating Multimodal Knowledge Reasoning Consistency of Multimodal Large Language Models [52.569132872560814]
マルチモーダルな大言語モデル(MLLM)は、テキストとビジョンの理解を深め、大きなブレークスルーを達成した。しかし、現在のMLLMは、マルチモーダルな知識推論において、これらのモダリティを効果的に統合する上での課題に直面している。 MLLMにおけるマルチモーダル知識推論における一貫性劣化の程度を解析・比較する。
論文参考訳（メタデータ） (2025-03-03T09:01:51Z)
Have We Designed Generalizable Structural Knowledge Promptings? Systematic Evaluation and Rethinking [44.66045367454493]
本稿では,SKPパラダイムの一般化能力について,グラニュラリティ,トランスファービリティ,スケーラビリティ,普遍性という4つの視点から評価・再考することを目的とする。我々は、粒度と難易度が異なる9つのタスクからなる、SUBARUと呼ばれる新しいマルチグラニュラー・マルチレベルベンチマークを導入する。
論文参考訳（メタデータ） (2024-12-31T03:20:22Z)
ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing [27.034072044001736]
大規模マルチモーダル言語モデル(MLLM)は、自然言語処理と視覚的理解に革命をもたらした。現在の知識編集評価はスコープが限られており、バイアスがある可能性がある。複数のデータセットから8つのタスクからなる総合的なベンチマークであるComprehendEditを紹介する。
論文参考訳（メタデータ） (2024-12-17T11:41:49Z)
Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models [22.26930296101678]
既存の知識編集は、主にテキスト指向で粗いシナリオに焦点を当てている。本稿では,複数の対話型エンティティを持つ画像の正確な編集をターゲットとした,視覚指向できめ細かなマルチモーダル知識編集タスクを提案する。
論文参考訳（メタデータ） (2024-11-19T14:49:36Z)
RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文参考訳（メタデータ） (2024-10-18T03:45:19Z)
Understanding the Role of LLMs in Multimodal Evaluation Benchmarks [77.59035801244278]
本稿では,MLLM評価におけるLarge Language Model (LLM)バックボーンの役割について検討する。本研究は4つのMLLMベンチマークと8つの最先端MLLMベンチマークを含む。鍵となる発見は、いくつかのベンチマークでは視覚的な入力がなくても高いパフォーマンスを実現しており、最大50%のエラーレートは、LLMバックボーンにおける不十分な世界的知識に起因していることを示している。
論文参考訳（メタデータ） (2024-10-16T07:49:13Z)
Towards Unified Multimodal Editing with Enhanced Knowledge Collaboration [107.31481207855835]
内在的知識の編集や外部知識の活用といった現在の手法は、それぞれに長所と短所がある。固有知識編集と外部知識を活用した統一的な視点を確立するための,新しいマルチモーダル編集手法UniKEを提案する。
論文参考訳（メタデータ） (2024-09-30T02:13:53Z)
Needle In A Multimodal Haystack [79.81804334634408]
本稿では,従来のMLLMの長大なマルチモーダル文書の理解能力を評価するために設計された,最初のベンチマークを示す。我々のベンチマークには、マルチモーダル検索、カウント、推論の3種類の評価タスクが含まれている。既存のモデルには、これらのタスク、特に視覚中心の評価において、改善の余地がまだ残っていることを観察する。
論文参考訳（メタデータ） (2024-06-11T13:09:16Z)
Unlocking Multi-View Insights in Knowledge-Dense Retrieval-Augmented Generation [10.431782420943764]
本稿では,知識密度ドメインに適した新しいマルチビューRAGフレームワークであるMVRAGを紹介する。法的および医学的事例検索実験は、リコール率と精度を著しく改善した。
論文参考訳（メタデータ） (2024-04-19T13:27:38Z)
Large Multimodal Agents: A Survey [78.81459893884737]
大規模言語モデル(LLM)は、テキストベースのAIエージェントのパワーで優れたパフォーマンスを実現している。 LLMを利用したAIエージェントをマルチモーダルドメインに拡張することに焦点を当てた、新たな研究トレンドがある。本総説は, この急速に発展する分野において, 今後の研究に有用な洞察とガイドラインを提供することを目的としている。
論文参考訳（メタデータ） (2024-02-23T06:04:23Z)
A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文参考訳（メタデータ） (2024-01-02T16:54:58Z)
Multi-agent Reinforcement Learning: A Comprehensive Survey [10.186029242664931]
マルチエージェントシステム(MAS)は、多くの現実世界のアプリケーションにおいて広く普及し、重要な存在である。汎用性にもかかわらず、MASにおける知的意思決定エージェントの開発は、その効果的な実装にいくつかのオープンな課題を提起している。本調査は,ゲーム理論(GT)と機械学習(ML)による基礎概念の研究に重点を置いて,これらの課題を考察する。
論文参考訳（メタデータ） (2023-12-15T23:16:54Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。