論文の概要: Contamination Detection for VLMs using Multi-Modal Semantic Perturbation
- arxiv url: http://arxiv.org/abs/2511.03774v1
- Date: Wed, 05 Nov 2025 18:59:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-07 20:17:53.180712
- Title: Contamination Detection for VLMs using Multi-Modal Semantic Perturbation
- Title(参考訳): マルチモーダル・セマンティック摂動を用いたVLMの汚染検出
- Authors: Jaden Park, Mu Cai, Feng Yao, Jingbo Shang, Soochahn Lee, Yong Jae Lee,
- Abstract要約: オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。
プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。
既存の検出手法が不整合性を示すか,不整合性を示すかを示す。
マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
- 参考スコア(独自算出の注目度): 73.76465227729818
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Recent advances in Vision-Language Models (VLMs) have achieved state-of-the-art performance on numerous benchmark tasks. However, the use of internet-scale, often proprietary, pretraining corpora raises a critical concern for both practitioners and users: inflated performance due to test-set leakage. While prior works have proposed mitigation strategies such as decontamination of pretraining data and benchmark redesign for LLMs, the complementary direction of developing detection methods for contaminated VLMs remains underexplored. To address this gap, we deliberately contaminate open-source VLMs on popular benchmarks and show that existing detection approaches either fail outright or exhibit inconsistent behavior. We then propose a novel simple yet effective detection method based on multi-modal semantic perturbation, demonstrating that contaminated models fail to generalize under controlled perturbations. Finally, we validate our approach across multiple realistic contamination strategies, confirming its robustness and effectiveness. The code and perturbed dataset will be released publicly.
- Abstract(参考訳): VLM(Vision-Language Models)の最近の進歩は、多数のベンチマークタスクにおいて最先端のパフォーマンスを実現している。
しかし、インターネット規模のプロプライエタリなプレトレーニングコーパスの使用は、実践者とユーザ双方にとって重要な懸念を提起している。
事前学習データの除去やLSMのベンチマーク再設計といった緩和策が提案されているが、汚染されたVLMの検出方法の補完的な方向性は未定である。
このギャップに対処するため、我々はオープンソースのVLMを人気のあるベンチマークで意図的に汚染し、既存の検出アプローチが完全に失敗するか、一貫性のない動作を示すかを示す。
次に,マルチモーダルな意味摂動に基づく簡易かつ効果的な検出手法を提案し,汚染されたモデルが制御摂動の下で一般化できないことを示す。
最後に, 本手法を複数の現実的な汚染戦略にまたがって検証し, その堅牢性と有効性を確認した。
コードと摂動データセットは公開される予定だ。
関連論文リスト
- Revisiting Pre-trained Language Models for Vulnerability Detection [10.688122311096253]
プレトレーニング言語モデル(PLM)の急速な進歩は、様々なコード関連タスクに対して有望な結果を示した。
しかし、現実世界の脆弱性を検出する効果は依然として重要な課題である。
本稿では、より小さなコード固有のPLMと大規模PLMにまたがる17のPLMを広範囲に評価するRevisitVDを紹介する。
論文 参考訳(メタデータ) (2025-07-22T17:58:49Z) - Simulating Training Data Leakage in Multiple-Choice Benchmarks for LLM Evaluation [6.4212082894269535]
既存のリーク検出技術である置換法とn-gram法を比較した。
解析の結果,n-gram法は高いF1スコアが得られることがわかった。
MMLUとHellaSwagのクリーンバージョンを作成し、複数のLLMを再評価する。
論文 参考訳(メタデータ) (2025-05-30T06:37:39Z) - Robust Distribution Alignment for Industrial Anomaly Detection under Distribution Shift [51.24522135151649]
異常検出は産業アプリケーションの品質管理において重要な役割を担っている。
既存の方法は、一般化可能なモデルをトレーニングすることで、ドメインシフトに対処しようとする。
提案手法は,最先端の異常検出法や領域適応法と比較して,優れた結果を示す。
論文 参考訳(メタデータ) (2025-03-19T05:25:52Z) - Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。
マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。
我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文 参考訳(メタデータ) (2024-11-06T10:44:15Z) - Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges [3.0455427910850785]
我々は,8つの挑戦的データセットにまたがる4つの最先端LCMを用いた5つの汚染検出手法を評価する。
解析の結果,現在の手法は仮定や応用に非自明な制約があることが明らかとなった。
論文 参考訳(メタデータ) (2024-09-16T02:04:33Z) - MarvelOVD: Marrying Object Recognition and Vision-Language Models for Robust Open-Vocabulary Object Detection [107.15164718585666]
開語彙検出コンテキスト下でのVLMの偏り予測の根本原因について検討した。
私たちの観察は、非常に優れたトレーニングターゲットを生成する、単純で効果的なパラダイム、コード化されたMarvelOVDにつながります。
我々の手法は、他の最先端技術よりも大きなマージンで優れている。
論文 参考訳(メタデータ) (2024-07-31T09:23:57Z) - Large Language Models can Deliver Accurate and Interpretable Time Series Anomaly Detection [34.40206965758026]
時系列異常検出(TSAD)は、標準トレンドから逸脱する非定型パターンを特定することで、様々な産業において重要な役割を果たす。
従来のTSADモデルは、しばしばディープラーニングに依存しており、広範なトレーニングデータを必要とし、ブラックボックスとして動作する。
LLMADは,Large Language Models (LLMs) を用いて,高精度かつ解釈可能なTSAD結果を提供する新しいTSAD手法である。
論文 参考訳(メタデータ) (2024-05-24T09:07:02Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。