論文の概要: Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models
- arxiv url: http://arxiv.org/abs/2411.12790v1
- Date: Tue, 19 Nov 2024 14:49:36 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-21 16:13:12.089441
- Title: Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models
- Title(参考訳): マルチモーダル大言語モデルのためのビジュアル指向の細粒度知識編集
- Authors: Zhen Zeng, Leijiang Gu, Xun Yang, Zhangling Duan, Zenglin Shi, Meng Wang,
- Abstract要約: 既存の知識編集は、主にテキスト指向で粗いシナリオに焦点を当てている。
本稿では,複数の対話型エンティティを持つ画像の正確な編集をターゲットとした,視覚指向できめ細かなマルチモーダル知識編集タスクを提案する。
- 参考スコア(独自算出の注目度): 22.26930296101678
- License:
- Abstract: Knowledge editing aims to efficiently and cost-effectively correct inaccuracies and update outdated information. Recently, there has been growing interest in extending knowledge editing from Large Language Models (LLMs) to Multimodal Large Language Models (MLLMs), which integrate both textual and visual information, introducing additional editing complexities. Existing multimodal knowledge editing works primarily focus on text-oriented, coarse-grained scenarios, failing to address the unique challenges posed by multimodal contexts. In this paper, we propose a visual-oriented, fine-grained multimodal knowledge editing task that targets precise editing in images with multiple interacting entities. We introduce the Fine-Grained Visual Knowledge Editing (FGVEdit) benchmark to evaluate this task. Moreover, we propose a Multimodal Scope Classifier-based Knowledge Editor (MSCKE) framework. MSCKE leverages a multimodal scope classifier that integrates both visual and textual information to accurately identify and update knowledge related to specific entities within images. This approach ensures precise editing while preserving irrelevant information, overcoming the limitations of traditional text-only editing methods. Extensive experiments on the FGVEdit benchmark demonstrate that MSCKE outperforms existing methods, showcasing its effectiveness in solving the complex challenges of multimodal knowledge editing.
- Abstract(参考訳): 知識編集は、不正確さを効率的かつ効果的に修正し、古い情報を更新することを目的としている。
近年,Large Language Models (LLMs) から Multimodal Large Language Models (MLLMs) への知識編集への関心が高まっている。
既存のマルチモーダル知識編集は、主にテキスト指向で粗いシナリオに焦点を当て、マルチモーダルコンテキストによって引き起こされる固有の課題に対処できない。
本稿では,複数の対話型エンティティを持つ画像の正確な編集をターゲットとした,視覚指向できめ細かなマルチモーダル知識編集タスクを提案する。
この課題を評価するために、FGVEdit(Fen-Grained Visual Knowledge Editing)ベンチマークを導入する。
さらに,マルチモーダルスコープ分類器に基づく知識エディタ(MSCKE)フレームワークを提案する。
MSCKEは、視覚情報とテキスト情報を統合するマルチモーダルスコープ分類器を利用して、画像内の特定のエンティティに関連する知識を正確に識別し、更新する。
このアプローチは、従来のテキストのみの編集方法の制限を克服し、無関係な情報を保持しながら正確な編集を保証する。
FGVEditベンチマークの大規模な実験により、MSCKEは既存の手法よりも優れており、マルチモーダル知識編集の複雑な課題を解決する上での有効性を示している。
関連論文リスト
- Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era [50.19334853510935]
命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。
我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。
論文 参考訳(メタデータ) (2024-11-15T05:18:15Z) - Cross-Lingual Multi-Hop Knowledge Editing -- Benchmarks, Analysis and a Simple Contrastive Learning based Approach [53.028586843468915]
言語横断的な設定で様々なSoTA知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。
具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。
次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
論文 参考訳(メタデータ) (2024-07-14T17:18:16Z) - MC-MKE: A Fine-Grained Multimodal Knowledge Editing Benchmark Emphasizing Modality Consistency [50.40318712497071]
MLLM(Multimodal large language model)は、非現実的または時代遅れの知識問題を引き起こす。
マルチモーダルな知識を視覚的およびテキスト的構成要素に分解する。
本稿では,マルチモーダル知識編集ベンチマークMC-MKEを提案する。
論文 参考訳(メタデータ) (2024-06-19T05:15:21Z) - MEMLA: Enhancing Multilingual Knowledge Editing with Neuron-Masked Low-Rank Adaptation [18.087144677674786]
我々は多言語知識編集(MKE)に重点を置いており、複数の言語にまたがる更新の伝播が必要である。
12言語からなる新しいデータセットであるMKEB(Multilingual Knowledge Editing Benchmark)を紹介する。
また,ニューロンマスト型低ランク適応(MEMLA)による知識編集を促進する手法を提案する。
論文 参考訳(メタデータ) (2024-06-17T14:03:50Z) - MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge
Editing [21.760293271882997]
マルチモーダル知識編集は、マルチモーダル大言語モデル(MLLM)の能力向上における重要な進歩である
現在のベンチマークは主に粗粒度知識に焦点が当てられており、細粒度(FG)マルチモーダル実体知識の複雑さはほとんど解明されていない。
このギャップを埋めるために、我々はFGマルチモーダルエンティティ知識編集用に特別に設計された総合的なベンチマークとデータセットであるMIKEを紹介する。
論文 参考訳(メタデータ) (2024-02-18T07:15:03Z) - A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。
本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。
我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文 参考訳(メタデータ) (2024-01-02T16:54:58Z) - SmartEdit: Exploring Complex Instruction-based Image Editing with
Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。
MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。
我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文 参考訳(メタデータ) (2023-12-11T17:54:11Z) - Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object
Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。
多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文 参考訳(メタデータ) (2023-08-30T08:33:13Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。