論文の概要: OFFSIDE: Benchmarking Unlearning Misinformation in Multimodal Large Language Models
- arxiv url: http://arxiv.org/abs/2510.22535v1
- Date: Sun, 26 Oct 2025 05:05:30 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-28 15:28:15.238342
- Title: OFFSIDE: Benchmarking Unlearning Misinformation in Multimodal Large Language Models
- Title(参考訳): OFFSIDE: マルチモーダル大規模言語モデルにおける学習ミス情報のベンチマーク
- Authors: Hao Zheng, Zirui Pang, Ling li, Zhijie Deng, Yuhan Pu, Zhaowei Zhu, Xiaobo Xia, Jiaheng Wei,
- Abstract要約: MLLMにおける誤情報アンラーニングを評価するための新しいベンチマークであるOFFSIDEを紹介する。
このデータセットは80人のプレイヤーのための15.68Kレコードを含み、忘れることの有効性、一般化、実用性、堅牢性を評価するための4つのテストセットを備えた包括的なフレームワークを提供する。
Offsideは、選択的アンラーニングや修正的再ラーニングといった高度な設定をサポートしており、重要なのは、一助的アンラーニングだ。
- 参考スコア(独自算出の注目度): 42.313806202695176
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Advances in Multimodal Large Language Models (MLLMs) intensify concerns about data privacy, making Machine Unlearning (MU), the selective removal of learned information, a critical necessity. However, existing MU benchmarks for MLLMs are limited by a lack of image diversity, potential inaccuracies, and insufficient evaluation scenarios, which fail to capture the complexity of real-world applications. To facilitate the development of MLLMs unlearning and alleviate the aforementioned limitations, we introduce OFFSIDE, a novel benchmark for evaluating misinformation unlearning in MLLMs based on football transfer rumors. This manually curated dataset contains 15.68K records for 80 players, providing a comprehensive framework with four test sets to assess forgetting efficacy, generalization, utility, and robustness. OFFSIDE supports advanced settings like selective unlearning and corrective relearning, and crucially, unimodal unlearning (forgetting only text data). Our extensive evaluation of multiple baselines reveals key findings: (1) Unimodal methods (erasing text-based knowledge) fail on multimodal rumors; (2) Unlearning efficacy is largely driven by catastrophic forgetting; (3) All methods struggle with "visual rumors" (rumors appear in the image); (4) The unlearned rumors can be easily recovered and (5) All methods are vulnerable to prompt attacks. These results expose significant vulnerabilities in current approaches, highlighting the need for more robust multimodal unlearning solutions. The code is available at \href{https://github.com/zh121800/OFFSIDE}{https://github.com/zh121800/OFFSIDE}.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)の進歩は、データのプライバシに関する懸念を強め、学習情報の選択的削除であるMachine Unlearning(MU)を重要不可欠なものにしている。
しかし、MLLMの既存のMUベンチマークは、画像の多様性の欠如、潜在的な不正確さ、そして実際のアプリケーションの複雑さを捉えるのに失敗した評価シナリオによって制限されている。
MLLMのアンラーニングを容易化し,上記の制限を緩和するために,フットボール・トランスファーの噂に基づいて,MLLMにおける誤情報アンラーニングを評価するための新しいベンチマークOFFSIDEを導入する。
この手動でキュレートされたデータセットは80人のプレイヤーのための15.68Kレコードを含み、忘れることの有効性、一般化、有用性、堅牢性を評価するための4つのテストセットを備えた包括的なフレームワークを提供する。
OFFSIDEは、選択的アンラーニングや修正的再ラーニングといった高度な設定をサポートし、重要な点として、(テキストデータのみをフォーゲッティングする)非モーダルアンラーニングをサポートする。
1) 単元的手法(テキストベース知識の活用)はマルチモーダルなうわさで失敗する; (2) 未学習の有効性は破滅的な忘れによって大きく左右される; (3) 全ての手法は「視覚的うわさ」に苦しむ; (4) 未学習のうわさは容易に回収でき、(5) 全ての手法は即時攻撃に対して脆弱である。
これらの結果は、現在のアプローチにおける重大な脆弱性を明らかにし、より堅牢なマルチモーダルなアンラーニングソリューションの必要性を強調している。
コードは \href{https://github.com/zh121800/OFFSIDE}{https://github.com/zh121800/OFFSIDE} で公開されている。
関連論文リスト
- True Multimodal In-Context Learning Needs Attention to the Visual Context [69.63677595066012]
MLLM(Multimodal Large Language Models)は、新しいタスクに適応したMICL(Multimodal In-Context Learning)を実現する。
現在のMLLMは、視覚的手がかりを無視し、テキストパターンを過度に無視する傾向にあり、真のマルチモーダル適応よりも単なるテキスト模倣に繋がる。
視覚的コンテキストへのモデルへの参加を促す,効率的な微調整戦略であるDynamic Attention Reallocation (DARA)を紹介した。
論文 参考訳(メタデータ) (2025-07-21T17:08:18Z) - Unlearning Sensitive Information in Multimodal LLMs: Benchmark and Attack-Defense Evaluation [88.78166077081912]
我々は、MLLMから特定のマルチモーダル知識を削除する方法を評価するために、マルチモーダル・アンラーニング・ベンチマークUnLOK-VQAとアタック・アンド・ディフェンス・フレームワークを導入する。
その結果,マルチモーダル攻撃はテキストや画像のみの攻撃よりも優れており,最も効果的な防御は内部モデル状態から解答情報を除去することを示した。
論文 参考訳(メタデータ) (2025-05-01T01:54:00Z) - A Closer Look at Machine Unlearning for Large Language Models [46.245404272612795]
大型言語モデル(LLM)は機密または著作権のあるコンテンツを記憶し、プライバシーと法的懸念を高める。
LLMの機械学習におけるいくつかの問題について議論し、可能なアプローチについての洞察を提供する。
論文 参考訳(メタデータ) (2024-10-10T16:56:05Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [111.51612340032052]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。