論文の概要: PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2503.12545v2
- Date: Tue, 22 Jul 2025 08:49:12 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-07-23 15:16:10.953949
- Title: PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models
- Title(参考訳): PEBench: マルチモーダルな大規模言語モデルのためのベンチマークマシンアンラーニングのための架空のデータセット
- Authors: Zhaopan Xu, Pengfei Zhou, Weidong Tang, Jiaxin Ai, Wangbo Zhao, Kai Wang, Xiaojiang Peng, Wenqi Shao, Hongxun Yao, Kaipeng Zhang,
- Abstract要約: マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクにおいて顕著な成功を収めた。
膨大なインターネットソースデータへの依存は、プライバシーとセキュリティの重大な懸念を引き起こす。
マシン・アンラーニング(MU)はこれらの問題に対処するための重要な手法として登場した。
PEBenchはMLLMにおけるMUの徹底的な評価を容易にするために設計された新しいベンチマークである。
- 参考スコア(独自算出の注目度): 27.338242898495448
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Multimodal large language models (MLLMs) have achieved remarkable success in vision-language tasks, but their reliance on vast, internet-sourced data raises significant privacy and security concerns. Machine unlearning (MU) has emerged as a critical technique to address these issues, enabling the selective removal of targeted information from pre-trained models without costly retraining. However, the evaluation of MU for MLLMs remains inadequate. Existing benchmarks often lack a comprehensive scope, focusing narrowly on entities while overlooking the unlearning of broader visual concepts and the inherent semantic coupling between them. To bridge this gap, we introduce, PEBench, a novel benchmark designed to facilitate a thorough assessment of MU in MLLMs. PEBench features a fictitious dataset of personal entities and corresponding event scenes to evaluate unlearning across these distinct yet entangled concepts. We leverage this benchmark to evaluate five MU methods, revealing their unique strengths and weaknesses. Our findings show that unlearning one concept can unintentionally degrade performance on related concepts within the same image, a challenge we term cross-concept interference. Furthermore, we demonstrate the difficulty of unlearning person and event concepts simultaneously and propose an effective method to mitigate these conflicting objectives. The source code and benchmark are publicly available at https://pebench.github.io.
- Abstract(参考訳): MLLM(Multimodal large language model)は視覚言語タスクにおいて顕著な成功を収めているが、インターネット上の膨大なデータに依存しているため、プライバシーやセキュリティ上の懸念が高まる。
マシン・アンラーニング(MU)はこれらの問題に対処するための重要な手法として登場し、コストのかかる再トレーニングなしに、事前訓練されたモデルからターゲット情報を選択的に除去することを可能にする。
しかし,MLLMのMU評価は依然として不十分である。
既存のベンチマークには包括的スコープがなく、より広い視覚概念の未学習とそれら間の固有の意味的結合を見下ろしながら、エンティティに限定することが多い。
このギャップを埋めるために,我々は,MLLMにおけるMUの徹底的な評価を容易にする新しいベンチマークPEBenchを紹介した。
PEBenchには、個人エンティティとそれに対応するイベントシーンの架空のデータセットがあり、これら異なるが絡み合った概念の未学習を評価する。
このベンチマークを利用して、5つのMUメソッドを評価し、そのユニークな長所と短所を明らかにします。
以上の結果から,非学習的な概念が同一画像内の関連概念の性能を意図せず劣化させる可能性が示唆された。
さらに、未学習者やイベント概念の難しさを同時に示し、これらの矛盾する目標を緩和する効果的な方法を提案する。
ソースコードとベンチマークはhttps://pebench.github.io.comで公開されている。
関連論文リスト
- Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - Survey of Adversarial Robustness in Multimodal Large Language Models [17.926240920647892]
MLLM(Multimodal Large Language Models)は、人工知能において例外的な性能を示す。
現実世界のアプリケーションへのデプロイは、敵の脆弱性に対する重大な懸念を引き起こす。
本稿では,MLLMの対角的ロバスト性について述べる。
論文 参考訳(メタデータ) (2025-03-18T06:54:59Z) - Grounded Chain-of-Thought for Multimodal Large Language Models [66.04061083611863]
我々は,GCoT(Gunded Chain-of-Thought)と呼ばれるマルチモーダル大規模言語モデル(MLLM)の新しい学習タスクを提案する。
GCoTは、MLLMが関連する視覚的手がかりを段階的に認識し、グラウンド化するのを支援し、グラウンド化座標による正しい解を直感的に予測する。
この作業を容易にするために,5,033画像に対して24,022 GCoT例からなるマルチモーダルグラウンドド・チェーン・オブ・ソート(MM-GCoT)と呼ばれるデータセットを慎重に設計し,構築する。
論文 参考訳(メタデータ) (2025-03-17T04:07:47Z) - SAUCE: Selective Concept Unlearning in Vision-Language Models with Sparse Autoencoders [16.551943721248108]
本稿では,視覚言語モデルにおいて,より微細で選択的な概念学習のための新しい手法であるSAUCEを紹介する。
まずSAEを訓練し、高次元、意味的に豊かなスパースの特徴を捉えます。
次に、未学習のターゲット概念に最も関連する機能を特定する。
推論中は、これらの特徴を選択的に修正し、関係のない情報を保存しながら特定の概念を抑圧する。
論文 参考訳(メタデータ) (2025-03-16T17:32:23Z) - VERIFY: A Benchmark of Visual Explanation and Reasoning for Investigating Multimodal Reasoning Fidelity [34.29409506366145]
VERIFYは最先端MLLMの視覚的推論能力を分離し、厳格に評価するために設計されたベンチマークである。
それぞれの問題には人手による推論パスが伴い、モデル決定プロセスの詳細な評価を初めて提供する。
本稿では,従来のモデル推論パターンにおける重要な不均衡を浮き彫りにして,単なる精度を超える視覚的推論の忠実さを評価する新しい指標を提案する。
論文 参考訳(メタデータ) (2025-03-14T16:26:11Z) - EmbodiedBench: Comprehensive Benchmarking Multi-modal Large Language Models for Vision-Driven Embodied Agents [63.43699771428243]
EmbodiedBenchは、視覚駆動型エンボディエージェントを評価するために設計された広範囲なベンチマークである。
我々はEmbodiedBench内のプロプライエタリでオープンソースなMLLMを19件評価した。
MLLMは高レベルのタスクでは優れているが、低レベルの操作には苦労する。
論文 参考訳(メタデータ) (2025-02-13T18:11:34Z) - Benchmarking Large and Small MLLMs [71.78055760441256]
大規模なマルチモーダル言語モデル(MLLM)は、マルチモーダルコンテンツの理解と生成において顕著な進歩を遂げている。
しかし、そのデプロイメントは、遅い推論、高い計算コスト、デバイス上のアプリケーションに対する非現実性など、重大な課題に直面している。
LLavaシリーズモデルとPhi-3-Visionによって実証された小さなMLLMは、より高速な推論、デプロイメントコストの削減、ドメイン固有のシナリオを扱う能力を備えた有望な代替手段を提供する。
論文 参考訳(メタデータ) (2025-01-04T07:44:49Z) - COSMOS: Cross-Modality Self-Distillation for Vision Language Pre-training [49.2684130383925]
視覚言語事前学習のためのCOSMOS: CrOSs-modality Self-distillationを提案する。
新たなテキストクロッピング戦略とクロスアテンションモジュールを自己教師型学習フレームワークに統合する。
さまざまなゼロショットダウンストリームタスクにおいて、以前の強いベースラインを一貫して上回ります。
論文 参考訳(メタデータ) (2024-12-02T18:56:06Z) - Benchmarking Vision Language Model Unlearning via Fictitious Facial Identity Dataset [92.99416966226724]
我々は、未学習アルゴリズムの有効性を頑健に評価するために設計された新しいVLMアンラーニングベンチマークであるFacial Identity Unlearning Benchmark (FIUBench)を紹介する。
情報ソースとその露出レベルを正確に制御する2段階評価パイプラインを適用した。
FIUBench 内の 4 つのベースライン VLM アンラーニングアルゴリズムの評価により,すべての手法がアンラーニング性能に制限されていることが明らかとなった。
論文 参考訳(メタデータ) (2024-11-05T23:26:10Z) - Protecting Privacy in Multimodal Large Language Models with MLLMU-Bench [17.73279547506514]
マルチモーダル・ラージ・モデル・アンラーニングベンチマーク(MLLMU-Bench)は,マルチモーダル・マシン・アンラーニングの理解を深めるための新しいベンチマークである。
MLLMU-Benchは500の架空のプロファイルと153のプロフィールで構成され、各プロファイルは14以上のカスタマイズされた質問応答ペアで構成され、マルチモーダル(画像+テキスト)とユニモーダル(テキスト)の両方の観点から評価される。
意外なことに、我々の実験では、ユニモーダル・アンラーニングのアルゴリズムは生成タスクやクローズタスクに優れており、マルチモーダル・アンラーニングのアプローチはマルチモーダル入力による分類タスクにおいてより優れている。
論文 参考訳(メタデータ) (2024-10-29T15:07:23Z) - CLEAR: Character Unlearning in Textual and Visual Modalities [7.618793381903125]
マルチモーダル・アンラーニング(MMU)は、クロスモーダルデータの除去を評価するためのオープンなベンチマークが欠如しているため、まだ探索されていない。
CLEARには200人の架空の人物と3700枚の画像が関連付けられている。
4つの評価セットにまたがる11種類のMU手法を包括的に分析し、両モードを共同学習することで単一モダリティのアプローチよりも優れることを示した。
論文 参考訳(メタデータ) (2024-10-23T17:30:50Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - MLLM-LLaVA-FL: Multimodal Large Language Model Assisted Federated Learning [25.45278447786954]
MLLM-LLaVA-FL(Multimodal Large Language Model Assisted Federated Learning)と呼ばれる新しいフェデレーション学習フレームワークを導入する。
当社のフレームワークは,Webサイトや強力なサーバサイド計算リソースからアクセス可能な,広範かつ未公開のオープンソースデータを活用することに長けています。
論文 参考訳(メタデータ) (2024-09-09T21:04:16Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - MU-Bench: A Multitask Multimodal Benchmark for Machine Unlearning [14.755831733659699]
MU-Benchは、Machine Unlearning(MU)の最初の包括的なベンチマークである。
MU-Benchは削除されたサンプルとトレーニングされたモデルの集合を統一し、タスクとデータモダリティを広範囲にカバーする。
我々は、スケーラビリティ、パラメータ効率のよい微調整とカリキュラム学習の影響、データセットバイアスに対する感受性など、未学習の未研究のいくつかの側面を分析した。
論文 参考訳(メタデータ) (2024-06-21T00:13:17Z) - Towards Effective Evaluations and Comparisons for LLM Unlearning Methods [97.2995389188179]
本稿では,大規模言語モデルにおける機械学習評価の精度向上を図る。
評価指標の堅牢性と、競合する目標間のトレードオフという、2つの重要な課題に対処します。
論文 参考訳(メタデータ) (2024-06-13T14:41:00Z) - MMRel: A Relation Understanding Benchmark in the MLLM Era [72.95901753186227]
MMRel(Multi-Modal Relation Understanding)は、オブジェクト間の関係に関する大規模で高品質で多様なデータを特徴付けるベンチマークである。
MMRelは、関係理解に基づくMLLMの評価や、関係理解能力を高めるための微調整MLLMに最適である。
論文 参考訳(メタデータ) (2024-06-13T13:51:59Z) - MultiTrust: A Comprehensive Benchmark Towards Trustworthy Multimodal Large Language Models [51.19622266249408]
MultiTrustはMLLMの信頼性に関する最初の総合的で統一されたベンチマークである。
我々のベンチマークでは、マルチモーダルリスクとクロスモーダルインパクトの両方に対処する厳格な評価戦略を採用している。
21の近代MLLMによる大規模な実験は、これまで調査されなかった信頼性の問題とリスクを明らかにしている。
論文 参考訳(メタデータ) (2024-06-11T08:38:13Z) - Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models [16.886116549737956]
本稿では,概念の視覚的認識を数ステップで微調整することで,概念の視覚的認識を解き放つための効率的な手法であるSingle Image Unlearning(SIU)を提案する。
MMUBench の実験結果から,SIU は既存手法の性能を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-21T06:27:12Z) - Machine Vision Therapy: Multimodal Large Language Models Can Enhance Visual Robustness via Denoising In-Context Learning [67.0609518552321]
本稿では,視覚モデルからノイズ予測を補正するマシンビジョンセラピーを提案する。
復調ラベルを微調整することにより、教師なしの方法で学習モデルの性能を高めることができる。
論文 参考訳(メタデータ) (2023-12-05T07:29:14Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。