Fugu-MT 論文翻訳(概要): Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models

論文の概要: Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models

arxiv url: http://arxiv.org/abs/2411.12790v1
Date: Tue, 19 Nov 2024 14:49:36 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:49.248043
Title: Visual-Oriented Fine-Grained Knowledge Editing for MultiModal Large Language Models
Title（参考訳）: マルチモーダル大言語モデルのためのビジュアル指向の細粒度知識編集
Authors: Zhen Zeng, Leijiang Gu, Xun Yang, Zhangling Duan, Zenglin Shi, Meng Wang,
Abstract要約: 既存の知識編集は、主にテキスト指向で粗いシナリオに焦点を当てている。本稿では,複数の対話型エンティティを持つ画像の正確な編集をターゲットとした,視覚指向できめ細かなマルチモーダル知識編集タスクを提案する。
参考スコア（独自算出の注目度）: 22.26930296101678
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Knowledge editing aims to efficiently and cost-effectively correct inaccuracies and update outdated information. Recently, there has been growing interest in extending knowledge editing from Large Language Models (LLMs) to Multimodal Large Language Models (MLLMs), which integrate both textual and visual information, introducing additional editing complexities. Existing multimodal knowledge editing works primarily focus on text-oriented, coarse-grained scenarios, failing to address the unique challenges posed by multimodal contexts. In this paper, we propose a visual-oriented, fine-grained multimodal knowledge editing task that targets precise editing in images with multiple interacting entities. We introduce the Fine-Grained Visual Knowledge Editing (FGVEdit) benchmark to evaluate this task. Moreover, we propose a Multimodal Scope Classifier-based Knowledge Editor (MSCKE) framework. MSCKE leverages a multimodal scope classifier that integrates both visual and textual information to accurately identify and update knowledge related to specific entities within images. This approach ensures precise editing while preserving irrelevant information, overcoming the limitations of traditional text-only editing methods. Extensive experiments on the FGVEdit benchmark demonstrate that MSCKE outperforms existing methods, showcasing its effectiveness in solving the complex challenges of multimodal knowledge editing.
Abstract（参考訳）: 知識編集は、不正確さを効率的かつ効果的に修正し、古い情報を更新することを目的としている。近年,Large Language Models (LLMs) から Multimodal Large Language Models (MLLMs) への知識編集への関心が高まっている。既存のマルチモーダル知識編集は、主にテキスト指向で粗いシナリオに焦点を当て、マルチモーダルコンテキストによって引き起こされる固有の課題に対処できない。本稿では,複数の対話型エンティティを持つ画像の正確な編集をターゲットとした,視覚指向できめ細かなマルチモーダル知識編集タスクを提案する。この課題を評価するために、FGVEdit(Fen-Grained Visual Knowledge Editing)ベンチマークを導入する。さらに,マルチモーダルスコープ分類器に基づく知識エディタ(MSCKE)フレームワークを提案する。 MSCKEは、視覚情報とテキスト情報を統合するマルチモーダルスコープ分類器を利用して、画像内の特定のエンティティに関連する知識を正確に識別し、更新する。このアプローチは、従来のテキストのみの編集方法の制限を克服し、無関係な情報を保持しながら正確な編集を保証する。 FGVEditベンチマークの大規模な実験により、MSCKEは既存の手法よりも優れており、マルチモーダル知識編集の複雑な課題を解決する上での有効性を示している。

関連論文リスト

InComeS: Integrating Compression and Selection Mechanisms into LLMs for Efficient Model Editing [77.47790551485721]
In-context Learningは、コンテキストエンコーディングを通じて編集情報を解釈することで、有望な編集方法である。この方法は、大きな言語モデルの限られたコンテキストウィンドウによって制約される。編集コンテキストの処理能力を向上させるフレキシブルなフレームワークであるInComeSを提案する。
論文参考訳（メタデータ） (2025-05-28T09:20:18Z)
MIND-Edit: MLLM Insight-Driven Editing via Language-Vision Projection [13.467269066605452]
MLLMと事前学習拡散モデルを組み合わせたエンドツーエンド画像編集フレームワークであるMIND-Editを提案する。 MIND-Editは,(1)MLLMからの意味的推論に基づく曖昧なユーザ指示を明確化するテキスト命令最適化戦略,(2)MLLMの本質的な視覚的理解能力を明示的に活用して編集意図を推測するMLLM洞察駆動型編集戦略,の2つの補完戦略を導入している。大規模な実験により、MIND-Editは、特に複雑で困難なシナリオにおいて、定量的メトリクスと視覚的品質の両方において、最先端の画像編集方法より優れていることが示された。
論文参考訳（メタデータ） (2025-05-25T13:54:31Z)
UniEdit: A Unified Knowledge Editing Benchmark for Large Language Models [16.546605509744015]
オープンドメイン知識に基づく大規模言語モデル(LLM)編集のための統一ベンチマークであるUniEditを紹介する。まず,5つのカテゴリにまたがる25の共通領域からエンティティを選択することで,サンプルを編集する。編集における一般性や局所性の問題に対処するため,我々はNorborhood Multi-hop Chain Smpling (NMCS)アルゴリズムを設計する。
論文参考訳（メタデータ） (2025-05-18T10:19:01Z)
MMKE-Bench: A Multimodal Editing Benchmark for Diverse Visual Knowledge [35.323379110573406]
本稿では,MultiModal Knowledge Editing Benchmark であるMMKE-Benchを紹介する。 LMMが現実世界のシナリオで様々な視覚的知識を編集する能力を評価するように設計されている。ビジュアルエンティティ編集、ビジュアルセマンティック編集、ユーザー固有の編集という3種類の編集タスクが組み込まれている。知識は2,940点、画像は8,363点、評価質問は自動的に生成され、人間による検証が行われる。
論文参考訳（メタデータ） (2025-02-27T08:21:28Z)
Related Knowledge Perturbation Matters: Rethinking Multiple Pieces of Knowledge Editing in Same-Subject [49.559994791305535]
現在最先端の編集手法は、複数の関連知識を同じ主題に編集する作業で苦労している。本稿では,textS2textRKE$(Same-Subject Related Knowledge Editing)ベンチマークを紹介する。実験の結果,ROMやMEMITのような主流の位置情報編集手法だけが「関連する知識の摂動」を示すことがわかった。
論文参考訳（メタデータ） (2025-02-08T04:47:17Z)
ComprehendEdit: A Comprehensive Dataset and Evaluation Framework for Multimodal Knowledge Editing [27.034072044001736]
大規模マルチモーダル言語モデル(MLLM)は、自然言語処理と視覚的理解に革命をもたらした。現在の知識編集評価はスコープが限られており、バイアスがある可能性がある。複数のデータセットから8つのタスクからなる総合的なベンチマークであるComprehendEditを紹介する。
論文参考訳（メタデータ） (2024-12-17T11:41:49Z)
Instruction-Guided Editing Controls for Images and Multimedia: A Survey in LLM era [50.19334853510935]
命令ベースの編集の最近の進歩は、ユーザ意図と複雑な編集操作の間の橋渡しとして自然言語を用いて、視覚コンテンツとの直感的な対話を可能にしている。我々は,エンターテイメントから教育に至るまで,様々な産業において強力なビジュアル編集を民主化することを目指している。
論文参考訳（メタデータ） (2024-11-15T05:18:15Z)
Cross-Lingual Multi-Hop Knowledge Editing -- Benchmarks, Analysis and a Simple Contrastive Learning based Approach [53.028586843468915]
言語横断的な設定で様々なSoTA知識編集技術の性能を計測・解析するための多言語多言語知識編集パラダイムを提案する。具体的には、知識編集能力を測定するために並列言語間ベンチマーク CROLIN-MQUAKE を作成します。次に,言語間マルチホップ知識編集システムであるCLEVER-CKEを提案する。
論文参考訳（メタデータ） (2024-07-14T17:18:16Z)
MC-MKE: A Fine-Grained Multimodal Knowledge Editing Benchmark Emphasizing Modality Consistency [50.40318712497071]
MLLM(Multimodal large language model)は、非現実的または時代遅れの知識問題を引き起こす。マルチモーダルな知識を視覚的およびテキスト的構成要素に分解する。本稿では,マルチモーダル知識編集ベンチマークMC-MKEを提案する。
論文参考訳（メタデータ） (2024-06-19T05:15:21Z)
MEMLA: Enhancing Multilingual Knowledge Editing with Neuron-Masked Low-Rank Adaptation [18.087144677674786]
我々は多言語知識編集(MKE)に重点を置いており、複数の言語にまたがる更新の伝播が必要である。 12言語からなる新しいデータセットであるMKEB(Multilingual Knowledge Editing Benchmark)を紹介する。また,ニューロンマスト型低ランク適応(MEMLA)による知識編集を促進する手法を提案する。
論文参考訳（メタデータ） (2024-06-17T14:03:50Z)
MIKE: A New Benchmark for Fine-grained Multimodal Entity Knowledge Editing [21.760293271882997]
マルチモーダル知識編集は、マルチモーダル大言語モデル(MLLM)の能力向上における重要な進歩である現在のベンチマークは主に粗粒度知識に焦点が当てられており、細粒度(FG)マルチモーダル実体知識の複雑さはほとんど解明されていない。このギャップを埋めるために、我々はFGマルチモーダルエンティティ知識編集用に特別に設計された総合的なベンチマークとデータセットであるMIKEを紹介する。
論文参考訳（メタデータ） (2024-02-18T07:15:03Z)
A Comprehensive Study of Knowledge Editing for Large Language Models [82.65729336401027]
大規模言語モデル(LLM)は、人間のコミュニケーションを忠実に反映したテキストの理解と生成の素晴らしい能力を示している。本稿では,知識編集の問題を定義し,最先端アプローチの包括的レビューを行う。我々は,代表的知識編集アプローチの総合的評価のための新しいベンチマークであるKnowEditを紹介した。
論文参考訳（メタデータ） (2024-01-02T16:54:58Z)
SmartEdit: Exploring Complex Instruction-based Image Editing with Multimodal Large Language Models [91.22477798288003]
本稿では,命令ベースの画像編集の新しいアプローチであるSmartEditを紹介する。 MLLM(Multimodal Large Language Models)を利用して、その理解と推論能力を強化する。我々は,より複雑な命令に対して,SmartEditの編集機能を効果的に刺激することのできる,少量の複雑な命令編集データを示す。
論文参考訳（メタデータ） (2023-12-11T17:54:11Z)
Exploring Multi-Modal Contextual Knowledge for Open-Vocabulary Object Detection [72.36017150922504]
教師の融合変換器から学生検出器へ学習した文脈知識を伝達するためのマルチモーダルな文脈知識蒸留フレームワーク MMC-Det を提案する。多様なマルチモーダルマスキング言語モデリングは、従来のマルチモーダルマスキング言語モデリング(MLM)に基づくオブジェクト分散制約により実現される。
論文参考訳（メタデータ） (2023-08-30T08:33:13Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。