論文の概要: Metric Unreliability in Multimodal Machine Unlearning: A Systematic Analysis and Principled Unified Score
- arxiv url: http://arxiv.org/abs/2605.02206v1
- Date: Mon, 04 May 2026 04:13:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-05 20:33:50.135429
- Title: Metric Unreliability in Multimodal Machine Unlearning: A Systematic Analysis and Principled Unified Score
- Title(参考訳): マルチモーダルマシン・アンラーニングにおけるメトリクスの信頼性:体系的解析と原理的統一スコア
- Authors: Abdullah Ahmad Khan, Hamid Laga, Ferdous Sohel,
- Abstract要約: 一般データ保護規制法に準拠するためには、ビジョンランゲージモデル(VLM)のアンラーニングが必要である。
マルチモーダル・アンラーニングにおける信頼性の最初の研究について述べる。
統一品質スコア(Unified Quality Score, UQS)は, 各計量のスピアマン相関と距離の関係から得られる重みを持つ計量である。
- 参考スコア(独自算出の注目度): 14.579552536669217
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine unlearning in Vision-Language Models (VLMs) is required for compliance with the General Data Protection Regulation (GDPR), yet current evaluation practices are inconsistent. We present the first systematic study of metric reliability in multimodal unlearning. Five standard metrics, Forget Accuracy (FA), Retain Accuracy (RA), Membership Inference Attack (MIA), Activation Distance (AD), and JS divergence (JS), yield conflicting method rankings across three VQA benchmarks (MLLMU-Bench, UnLOK-VQA, MMUBench). Kendall tau analysis over 36 unlearned LLaVA-1.5-7B models reveals two opposing clusters, {FA, RA, MIA} and {AD, JS}, with tau_FA_AD = -0.26, reproduced on BLIP-2 OPT-2.7B. Agreement is lower in multimodal VQA (average tau = 0.086) than in unimodal classification (average tau = 0.158; difference = 0.072), indicating that dual image-and-text pathways amplify inconsistency. We introduce the Unified Quality Score (UQS), a composite metric with weights derived from each metric's Spearman correlation with the oracle distance d(M_hat, M_star), where M_star is the oracle model retrained only on the retain set. RA shows the strongest reliability (rho = 0.484, p = 0.003), while FA is negatively correlated (rho = -0.418, p = 0.011). UQS yields stable rankings under 100 random weight perturbations (tau = 0.647 +- 0.262). We release the benchmark, 36 checkpoints, and an interactive leaderboard. Code and pre-computed results are available at https://github.com/neurips26/UnifiedUnl.
- Abstract(参考訳): 一般データ保護規則(GDPR)に準拠するためには、ビジョンランゲージモデル(VLM)における機械学習が必要であるが、現在の評価慣行は矛盾している。
マルチモーダル・アンラーニングにおける計量信頼性に関する最初の体系的研究について述べる。
Forget Accuracy(FA), Retain Accuracy(RA), Membership Inference Attack(MIA), Activation Distance(AD), JS divergence(JS), yield conflicting method rankings across three VQA benchmarks(MLLMU-Bench, UnLOK-VQA, MMUBench)。
36個のLLaVA-1.5-7Bモデルに対するケンドールタウ解析により、BLIP-2 OPT-2.7Bで再現されたtau_FA_AD = -0.26の対向する2つのクラスター {FA, RA, MIA} と {AD, JS} が明らかになった。
マルチモーダルVQA(平均タウ = 0.086)では、単調な分類(平均タウ = 0.158;差 = 0.072)よりも一致が低く、二重画像とテキストの経路が矛盾を増幅することを示している。
本稿では,各計量のスピアマン相関から得られた重み付き複合計量である統一品質スコア(UQS)を紹介し,M_starは保持集合上でのみ再学習されるオラクルモデルである。
RAは最も高い信頼性(rho = 0.484, p = 0.003)を示し、FAは負に相関している(rho = -0.418, p = 0.011)。
UQSは100のランダムウェイト摂動 (tau = 0.647 +- 0.262) 以下の安定したランクを得る。
ベンチマーク、36のチェックポイント、インタラクティブなリーダボードをリリースしています。
コードと事前計算結果はhttps://github.com/neurips26/UnifiedUnl.comで公開されている。
関連論文リスト
- Calibrated Confidence Estimation for Tabular Question Answering [0.0]
ECE 0.35-0.64 に対して、テキスト QA では 0.10-0.15 が報告されている)。
摂動二分法に対する一貫した自己評価は、両方のベンチマークと4つの完全にカバーされたモデル間で複製される。
構造を意識した再校正による二次貢献は、標準的なポストホック法よりもAUROCをパーセンテージポイントで改善する。
論文 参考訳(メタデータ) (2026-04-14T09:16:53Z) - When Self-Reference Fails to Close: Matrix-Level Dynamics in Large Language Models [0.0]
自己参照的ステートメントとメタ認知的プロンプトは、主要な崩壊関連メトリクスのパラドックス的自己参照よりも安定している。
我々は、NCTRが有限深度変圧器をこれらの問題に集中する力学系へ強制することを提案する。
論文 参考訳(メタデータ) (2026-04-13T23:23:02Z) - Good Scores, Bad Data: A Metric for Multimodal Coherence [0.0]
下流モデルに依存しない核融合品質を評価する指標であるMultimodal Coherence Score(MCS)を紹介する。
我々は,DETR,CLIP,VLTを用いて1000個のビジュアルゲノム画像を評価し,再トレーニングなしで150個のCOCO画像を検証した。
論文 参考訳(メタデータ) (2026-03-26T21:30:34Z) - DiscoUQ: Structured Disagreement Analysis for Uncertainty Quantification in LLM Agent Ensembles [5.647839536820347]
著者間の不一致構造を抽出し活用し,信頼度を良好に推定するフレームワークであるDiscoUQを紹介する。
DiscoUQ-LLM の平均 AUROC は 0.802 であり、最高のベースラインを上回っている。
学習した機能は、ほぼゼロに近いパフォーマンス劣化を伴うベンチマークで一般化される。
論文 参考訳(メタデータ) (2026-03-21T23:24:12Z) - ACAR: Adaptive Complexity Routing for Multi-Model Ensembles with Auditable Decision Traces [3.151184728006369]
本稿では,聴覚条件下でのマルチモデルオーケストレーションのための測定フレームワークACARを提案する。
ACARは、N=3プローブサンプルから計算した自己整合分散(sigma)を使用して、単一モデル、2モデル、3モデル実行モードでタスクをルーティングする。
我々は4つのベンチマークにまたがる1,510のタスクに対してACARを評価し、7,550以上の監査可能な実行を生成した。
論文 参考訳(メタデータ) (2026-02-06T23:27:17Z) - From Global to Granular: Revealing IQA Model Performance via Correlation Surface [83.65597122328133]
我々は, IQA 性能の構造化, きめ細かな解析を行う textbfGranularity-Modulated correlation (GMC) を提案する。
GMCにはtextbfDistribution Regulatorが含まれており、相関関係を規則化し、非均一な品質分布からのバイアスを軽減する。
標準ベンチマークの実験では、GCCはスカラーメトリクスに見えないパフォーマンス特性を示し、IQAモデルを分析、比較、デプロイするためのより情報に富んだ信頼性の高いパラダイムを提供する。
論文 参考訳(メタデータ) (2026-01-29T13:55:26Z) - CARE What Fails: Contrastive Anchored-REflection for Verifiable Multimodal [84.71254539482369]
検証可能な報酬を伴うグループ相対的強化学習(RLVR)は、しばしば、すでに失敗している最も情報に富むデータを浪費する。
エラーを監督するマルチモーダル推論のための,障害中心のポストトレーニングフレームワークであるCAREを提案する。
CAREは正確さを改善し、スムーズさをトレーニングすると同時に、障害からの学習信号のシェアを明示的に増やします。
論文 参考訳(メタデータ) (2025-12-22T16:34:21Z) - TrustJudge: Inconsistencies of LLM-as-a-Judge and How to Alleviate Them [58.04324690859212]
自動評価器(LLM-as-a-judge)としての大規模言語モデル(LLM)は、現在の評価フレームワークにおいて重大な矛盾を明らかにしている。
スコア比較不整合とペアワイズ・トランジティビティ不整合という2つの基本的不整合を同定する。
我々は2つの重要なイノベーションを通じてこれらの制限に対処する確率的フレームワークであるTrustJudgeを提案する。
論文 参考訳(メタデータ) (2025-09-25T13:04:29Z) - BUMP: A Benchmark of Unfaithful Minimal Pairs for Meta-Evaluation of
Faithfulness Metrics [70.52570641514146]
不誠実な最小対 (BUMP) のベンチマークを示す。
BUMPは、889人の人間が書いた最小限のサマリーペアのデータセットである。
非ペアベースのデータセットとは異なり、BUMPはメトリクスの一貫性を測定するために使用することができる。
論文 参考訳(メタデータ) (2022-12-20T02:17:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。