論文の概要: CLEAR: Character Unlearning in Textual and Visual Modalities
- arxiv url: http://arxiv.org/abs/2410.18057v1
- Date: Wed, 23 Oct 2024 17:30:50 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-10-24 13:57:09.085365
- Title: CLEAR: Character Unlearning in Textual and Visual Modalities
- Title(参考訳): CLEAR: テキストと視覚のモダリティにおける文字の学習
- Authors: Alexey Dontsov, Dmitrii Korzh, Alexey Zhavoronkin, Boris Mikheev, Denis Bobkov, Aibek Alanov, Oleg Y. Rogov, Ivan Oseledets, Elena Tutubalina,
- Abstract要約: マルチモーダル・アンラーニング(MMU)手法を評価するためのベンチマークであるCLEARを紹介する。
CLEARには200人の架空の人物と3700枚の画像が関連付けられている。
10 MU 法を評価し,それらを MMU に適用し,マルチモーダルな忘れ方に特有な新たな課題を浮き彫りにする。
- 参考スコア(独自算出の注目度): 7.618793381903125
- License:
- Abstract: Machine Unlearning (MU) is critical for enhancing privacy and security in deep learning models, particularly in large multimodal language models (MLLMs), by removing specific private or hazardous information. While MU has made significant progress in textual and visual modalities, multimodal unlearning (MMU) remains significantly underexplored, partially due to the absence of a suitable open-source benchmark. To address this, we introduce CLEAR, a new benchmark designed to evaluate MMU methods. CLEAR contains 200 fictitious individuals and 3,700 images linked with corresponding question-answer pairs, enabling a thorough evaluation across modalities. We assess 10 MU methods, adapting them for MMU, and highlight new challenges specific to multimodal forgetting. We also demonstrate that simple $\ell_1$ regularization on LoRA weights significantly mitigates catastrophic forgetting, preserving model performance on retained data. The dataset is available at https://huggingface.co/datasets/therem/CLEAR
- Abstract(参考訳): マシン・アンラーニング(MU)は、特に大規模なマルチモーダル言語モデル(MLLM)において、特定のプライベートまたは有害な情報を削除することによって、ディープラーニングモデルのプライバシとセキュリティを高めるために重要である。
MUはテキストと視覚のモダリティにおいて大きな進歩を遂げてきたが、MMU(Multimodal Unlearning)は、部分的には適切なオープンソースベンチマークが欠如していることから、明らかに過小評価されている。
そこで本研究では,MMU手法を評価するためのベンチマークであるCLEARを紹介する。
CLEARは200人の架空の個人と3700枚の画像と、それに対応する質問と回答のペアをリンクし、モダリティの徹底的な評価を可能にする。
10 MU 法を評価し,それらを MMU に適用し,マルチモーダルな忘れ方に特有な新たな課題を浮き彫りにする。
また、LoRA重みの単純な$\ell_1$正規化は破滅的な忘れを著しく軽減し、保持データ上でのモデル性能を保っていることを示す。
データセットはhttps://huggingface.co/datasets/therem/CLEARで公開されている。
関連論文リスト
- Protecting Privacy in Multimodal Large Language Models with MLLMU-Bench [17.73279547506514]
マルチモーダル・ラージ・モデル・アンラーニングベンチマーク(MLLMU-Bench)は,マルチモーダル・マシン・アンラーニングの理解を深めるための新しいベンチマークである。
MLLMU-Benchは500の架空のプロファイルと153のプロフィールで構成され、各プロファイルは14以上のカスタマイズされた質問応答ペアで構成され、マルチモーダル(画像+テキスト)とユニモーダル(テキスト)の両方の観点から評価される。
意外なことに、我々の実験では、ユニモーダル・アンラーニングのアルゴリズムは生成タスクやクローズタスクに優れており、マルチモーダル・アンラーニングのアプローチはマルチモーダル入力による分類タスクにおいてより優れている。
論文 参考訳(メタデータ) (2024-10-29T15:07:23Z) - RA-BLIP: Multimodal Adaptive Retrieval-Augmented Bootstrapping Language-Image Pre-training [55.54020926284334]
近年,MLLM (Multimodal Large Language Models) が注目されている。
検索拡張技術はLLMとMLLMの両方に有効なプラグインであることが証明されている。
本研究では,MLLMの新しい検索支援フレームワークであるRA-BLIP(Retrieval-Augmented Bootstrapping Language-Image Pre-training)を提案する。
論文 参考訳(メタデータ) (2024-10-18T03:45:19Z) - MMIE: Massive Multimodal Interleaved Comprehension Benchmark for Large Vision-Language Models [71.36392373876505]
我々は、LVLM(Large Vision-Language Models)において、インターリーブされたマルチモーダル理解と生成を評価するための大規模ベンチマークであるMMIEを紹介する。
MMIEは、数学、コーディング、物理学、文学、健康、芸術を含む3つのカテゴリ、12のフィールド、102のサブフィールドにまたがる20Kの厳密にキュレートされたマルチモーダルクエリで構成されている。
インターリーブされたインプットとアウトプットの両方をサポートし、多様な能力を評価するために、複数選択とオープンな質問フォーマットの混合を提供する。
論文 参考訳(メタデータ) (2024-10-14T04:15:00Z) - Recent Advances of Multimodal Continual Learning: A Comprehensive Survey [64.82070119713207]
本研究は,マルチモーダル連続学習法に関する総合的な調査である。
既存のMMCLメソッドは,正規化ベース,アーキテクチャベース,リプレイベース,プロンプトベースという4つのカテゴリに分類される。
今後の研究・開発への道筋について論じる。
論文 参考訳(メタデータ) (2024-10-07T13:10:40Z) - Deep Multimodal Learning with Missing Modality: A Survey [12.873458712005037]
欠落したモダリティを扱うために設計されたマルチモーダル学習技術は、これを緩和することができる。
本調査は,Multimodal Learning with Missing Modality (MLMM)の最近の進歩を概観する。
論文 参考訳(メタデータ) (2024-09-12T08:15:39Z) - MLLM Is a Strong Reranker: Advancing Multimodal Retrieval-augmented Generation via Knowledge-enhanced Reranking and Noise-injected Training [9.023648972811458]
RagVLは、知識強化されたリグレードとノイズ注入トレーニングを備えた、新しいフレームワークである。
我々はMLLMに簡単な命令テンプレートを付与し、そのランク付け能力を誘導する。
例えば、データとトークンレベルでのトレーニング中に視覚ノイズを注入して、ジェネレータの堅牢性を高める。
論文 参考訳(メタデータ) (2024-07-31T08:43:17Z) - MU-Bench: A Multitask Multimodal Benchmark for Machine Unlearning [14.755831733659699]
MU-Benchは、Machine Unlearning(MU)の最初の包括的なベンチマークである。
MU-Benchは削除されたサンプルとトレーニングされたモデルの集合を統一し、タスクとデータモダリティを広範囲にカバーする。
我々は、スケーラビリティ、パラメータ効率のよい微調整とカリキュラム学習の影響、データセットバイアスに対する感受性など、未学習の未研究のいくつかの側面を分析した。
論文 参考訳(メタデータ) (2024-06-21T00:13:17Z) - Single Image Unlearning: Efficient Machine Unlearning in Multimodal Large Language Models [13.08771725554285]
本稿では,概念の視覚的認識を数ステップで微調整することで,概念の視覚的認識を解き放つための効率的な手法であるSingle Image Unlearning(SIU)を提案する。
MMUBench の実験結果から,SIU は既存手法の性能を大幅に上回っていることがわかった。
論文 参考訳(メタデータ) (2024-05-21T06:27:12Z) - Are We on the Right Way for Evaluating Large Vision-Language Models? [92.5761176224556]
大規模視覚言語モデル(LVLM)は、最近急速に進歩し、そのマルチモーダル能力を評価するために多くの研究を巻き起こした。
視覚コンテンツは多くのサンプルに対して不要であり、意図的なデータ漏洩が存在する。
本稿では,人間によって精巧に選択された1500個のサンプルからなる,高度に視覚に欠かせないマルチモーダルベンチマークMMStarを提案する。
論文 参考訳(メタデータ) (2024-03-29T17:59:34Z) - MME: A Comprehensive Evaluation Benchmark for Multimodal Large Language Models [73.86954509967416]
マルチモーダル言語モデル(MLLM)は、マルチモーダルタスクを実行するために強力なLLMに依存している。
本稿では,MLLM 評価ベンチマーク MME について述べる。
知覚能力と認知能力の両方を合計14のサブタスクで測定する。
論文 参考訳(メタデータ) (2023-06-23T09:22:36Z) - MMG-Ego4D: Multi-Modal Generalization in Egocentric Action Recognition [73.80088682784587]
MMG(Multimodal Generalization)は,特定のモダリティのデータに制限がある場合,あるいは完全に欠落する場合に,システムがどのように一般化できるかを研究することを目的としている。
MMGは2つの新しいシナリオで構成され、現実のアプリケーションにおけるセキュリティと効率の考慮をサポートするように設計されている。
新しい融合モジュールは、モダリティのドロップアウトトレーニング、コントラストベースのアライメントトレーニング、そして新しいクロスモーダル損失により、より優れた数ショット性能を実現した。
論文 参考訳(メタデータ) (2023-05-12T03:05:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。