論文の概要: Erase Persona, Forget Lore: Benchmarking Multimodal Copyright Unlearning in Large Vision Language Models
- arxiv url: http://arxiv.org/abs/2605.03547v1
- Date: Tue, 05 May 2026 09:18:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-06 19:35:43.869088
- Title: Erase Persona, Forget Lore: Benchmarking Multimodal Copyright Unlearning in Large Vision Language Models
- Title(参考訳): Erase Persona, Forget Lore:大規模視覚言語モデルにおけるマルチモーダル著作権未学習のベンチマーク
- Authors: JuneHyoung Kwon, JungMin Yun, YoungBin Kim,
- Abstract要約: LVLM(Large Vision-Language Models)は、著作権のある視覚コンテンツを記憶し再生するWebスケールのデータリスクを訓練する。
我々は,LVLMにおける著作権コンテンツアンラーニングの評価に特化して設計された最初のフレームワークであるCoVUBenchベンチマークを紹介する。
- 参考スコア(独自算出の注目度): 19.949184312340556
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large Vision-Language Models (LVLMs), trained on web-scale data, risk memorizing and regenerating copyrighted visual content such as characters and logos, creating significant challenges. Machine unlearning offers a path to mitigate these risks by removing specific content post-training, but evaluating its effectiveness, especially in the complex multimodal setting of LVLMs, remains an open problem. Current evaluation methods often lack robustness or fail to capture the nuances of cross-modal concept erasure. To address this critical gap, we introduce the CoVUBench benchmark, the first framework specifically designed for evaluating copyright content unlearning in LVLMs. CoVUBench utilizes procedurally generated, legally safe synthetic data coupled with systematic visual variations spanning compositional changes and diverse domain manifestations to ensure realistic and robust evaluation of unlearning generalization. Our comprehensive multimodal evaluation protocol assesses both forgetting efficacy from the copyright holder perspective and the preservation of general model utility from the deployer viewpoint. By rigorously measuring this crucial trade-off, CoVUBench provides a standardized tool to advance the development of responsible and effective unlearning methods for LVLMs.
- Abstract(参考訳): LVLM(Large Vision-Language Models)は、ウェブスケールのデータに基づいて訓練され、文字やロゴなどの著作権のある視覚コンテンツを記憶し再生するリスクを負う。
機械学習は、トレーニング後の特定のコンテンツを削除することで、これらのリスクを軽減する道を提供するが、特にLVLMの複雑なマルチモーダル設定において、その効果を評価することは、未解決の問題である。
現在の評価手法は、しばしばロバスト性に欠けたり、モーダルな概念消去のニュアンスを捉えなかったりする。
この重要なギャップに対処するため、我々は、LVLMにおける著作権コンテンツの未学習を評価するために特別に設計された最初のフレームワークであるCoVUBenchベンチマークを紹介した。
CoVUBenchは、手続き的に生成され、法的に安全な合成データと、構成的変化と多様な領域の表現にまたがる体系的な視覚的変化を利用して、非学習の一般化の現実的で堅牢な評価を確実にする。
当社の総合的マルチモーダル評価プロトコルは,著作権保持者の観点からの有効性を忘れることと,デプロイ者の観点から汎用モデルユーティリティを保存することの両方を評価する。
この重要なトレードオフを厳格に測定することで、CoVUBenchはLVLMの責任ある効果的な非学習方法の開発を進めるための標準化されたツールを提供する。
関連論文リスト
- LIMSSR: LLM-Driven Sequence-to-Score Reasoning under Training-Time Incomplete Multimodal Observations [53.20772659095155]
本稿では、トレーニング時不完全観察において、より困難なIMLの設定に取り組む。
本稿では,この課題を条件付きシーケンス推論タスクとして再構成したLIMSSR(LLM-Driven Incomplete Multimodal Sequence-to-Score Reasoning)を提案する。
論文 参考訳(メタデータ) (2026-05-01T06:11:42Z) - Beyond Standard Benchmarks: A Systematic Audit of Vision-Language Model's Robustness to Natural Semantic Variation Across Diverse Tasks [11.064940886724257]
本稿では,視覚言語モデル(VLM)の自然なシナリオ下での体系的評価フレームワークを提案する。
ゼロショット画像分類,セマンティックセグメンテーション,視覚的質問応答において,選択したVLMの自然な対向性能を測定した。
解析の結果,頑健なCLIPモデルでは自然の敵対的脆弱性が増幅され,CLIPモデルでは自然言語による敵対的事例のパフォーマンスが著しく低下することが判明した。
論文 参考訳(メタデータ) (2026-04-06T06:48:32Z) - From Sparse Decisions to Dense Reasoning: A Multi-attribute Trajectory Paradigm for Multimodal Moderation [59.27094165576015]
疎度な意思決定から高密度な推論トレースへ移行する新しい学習パラダイム(UniMod)を提案する。
モノリシックな意思決定タスクを多次元境界学習プロセスに再構成し,エビデンス,モダリティ評価,リスクマッピング,政策決定,応答生成を含む構造化軌道を構築する。
タスク固有のパラメータを分離し、トレーニングダイナミクスを再バランスさせ、マルチタスク学習における多様な目的間の干渉を効果的に解消する、特別な最適化戦略を導入する。
論文 参考訳(メタデータ) (2026-01-28T09:29:40Z) - AUVIC: Adversarial Unlearning of Visual Concepts for Multi-modal Large Language Models [63.05306474002547]
を強制する規制フレームワークは、機械学習の必要性を喚起します。
AUVICはMLLMのための新しい視覚概念アンラーニングフレームワークである。
AUVICは,非ターゲット概念の性能劣化を最小限に抑えつつ,最先端の目標忘れ率を実現していることを示す。
論文 参考訳(メタデータ) (2025-11-14T13:35:32Z) - Continual Learning for VLMs: A Survey and Taxonomy Beyond Forgetting [70.83781268763215]
視覚言語モデル(VLM)は、大規模事前学習を活用することで、多様なマルチモーダルタスクにおいて優れたパフォーマンスを実現している。
VLMは、クロスモーダル機能ドリフト、共有アーキテクチャによるパラメータ干渉、ゼロショット機能侵食など、ユニークな課題に直面している。
本調査は、生涯の視覚言語システムを開発する研究者にとって、包括的かつ診断的な基準となることを目的としている。
論文 参考訳(メタデータ) (2025-08-06T09:03:10Z) - Image Can Bring Your Memory Back: A Novel Multi-Modal Guided Attack against Image Generation Model Unlearning [28.15997901023315]
Recallは、未学習のIMGの堅牢性を損なうために設計された、新しい敵のフレームワークである。
逆効果、計算効率、意味的忠実性の点で、元のプロンプトで既存のベースラインを一貫して上回ります。
これらの結果は、現在の未学習メカニズムにおける重大な脆弱性を明らかにし、より堅牢なソリューションの必要性を浮き彫りにしている。
論文 参考訳(メタデータ) (2025-07-09T02:59:01Z) - PEBench: A Fictitious Dataset to Benchmark Machine Unlearning for Multimodal Large Language Models [27.338242898495448]
マルチモーダル大規模言語モデル (MLLM) は視覚言語タスクにおいて顕著な成功を収めた。
膨大なインターネットソースデータへの依存は、プライバシーとセキュリティの重大な懸念を引き起こす。
マシン・アンラーニング(MU)はこれらの問題に対処するための重要な手法として登場した。
PEBenchはMLLMにおけるMUの徹底的な評価を容易にするために設計された新しいベンチマークである。
論文 参考訳(メタデータ) (2025-03-16T15:26:20Z) - Preserving Multi-Modal Capabilities of Pre-trained VLMs for Improving Vision-Linguistic Compositionality [69.76121008898677]
きめ細かい選択校正CLIPは局所的硬陰性損失と選択的校正正規化を統合している。
評価の結果、FSC-CLIPは、最先端モデルと同等の合成性を達成できるだけでなく、強力なマルチモーダル能力を保っていることがわかった。
論文 参考訳(メタデータ) (2024-10-07T17:16:20Z) - Mitigating Object Hallucination in Large Vision-Language Models via Image-Grounded Guidance [51.30560006045442]
Image-gRounded guIdaNcE (MARINE)は、トレーニングフリーかつAPIフリーのフレームワークである。
MARINEは、LVLMに画像グラウンドガイダンスを導入することにより、推論中の物体の幻覚を効果的かつ効率的に低減する。
私たちのフレームワークの柔軟性は、さらに複数のビジョンモデルの統合を可能にし、より信頼性が高く堅牢なオブジェクトレベルのガイダンスを可能にします。
論文 参考訳(メタデータ) (2024-02-13T18:59:05Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。