論文の概要: Beyond Surface-Level Similarity: Hierarchical Contamination Detection for Synthetic Training Data in Foundation Models
- arxiv url: http://arxiv.org/abs/2511.17602v1
- Date: Tue, 18 Nov 2025 04:56:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-25 18:34:24.284114
- Title: Beyond Surface-Level Similarity: Hierarchical Contamination Detection for Synthetic Training Data in Foundation Models
- Title(参考訳): 表面レベル類似性を超えて:基礎モデルにおける合成訓練データの階層的汚染検出
- Authors: Sushant Mehta,
- Abstract要約: トークンレベル,意味レベル,推論パターン,パフォーマンス崖検出の4つのレベルで動作する階層的汚染検出フレームワークを提案する。
意味レベルの汚染は既存の手法を回避できるが,階層的なアプローチで効果的に検出できることを実証する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data has become essential for training foundation models, yet benchmark contamination threatens evaluation integrity. Although existing detection methods identify token-level overlap, they fail to detect semantic-level contamination where synthetic data conceptually resemble benchmarks without lexical overlap. This gap is critical as foundation models increasingly train on synthetic data that may implicitly encode benchmark knowledge. We propose a hierarchical contamination detection framework operating at four levels: token level, semantic level, reasoning pattern, and performance cliff detection. Through controlled experiments on MMLU, GSM8K and HumanEval, we demonstrate that semantic-level contamination evades existing methods (F1=0.17-0.49) but is effectively detected by our hierarchical approach (F1 = 0.76), with an average improvement of 26. 5\% over state-of-the-art baselines. Our framework provides practitioners with practical tools for audit pipelines and enables responsible deployment of synthetic training data.
- Abstract(参考訳): 基礎モデルのトレーニングには合成データが不可欠だが、ベンチマーク汚染は評価の整合性を脅かす。
既存の検出方法はトークンレベルの重複を識別するが、合成データが語彙的な重複を伴わないベンチマークと概念的に類似している意味レベルの汚染を検出できない。
このギャップは、ベンチマーク知識を暗黙的にエンコードする可能性のある合成データに基づいて、基礎モデルがますます訓練されるため、非常に重要である。
トークンレベル,意味レベル,推論パターン,パフォーマンス崖検出の4つのレベルで動作する階層的汚染検出フレームワークを提案する。
MMLU, GSM8KおよびHumanEvalの制御実験により, 意味レベルの汚染は既存の方法(F1=0.17-0.49)を回避できるが, 階層的アプローチ(F1 = 0.76)により検出され, 平均26。
5 %であった。
我々のフレームワークは、実践者にパイプラインを監査するための実践的なツールを提供し、合成トレーニングデータの責任ある展開を可能にします。
関連論文リスト
- Beyond Memorization: Reasoning-Driven Synthesis as a Mitigation Strategy Against Benchmark Contamination [77.69093448529455]
本稿では,arXiv論文から直接研究レベルのQAを合成するために,無限にスケーラブルなフレームワークを用いて実証的研究を行う。
各種サイズ,開発者,リリース日といったモデルについて,知識カットオフ日に近い性能劣化の欠如を評価した。
合成パイプラインで要求される多段階の推論は、浅い記憶よりも深い複雑さをもたらしたと仮定する。
論文 参考訳(メタデータ) (2025-08-26T16:41:37Z) - Semi-Supervised Defect Detection via Conditional Diffusion and CLIP-Guided Noise Filtering [8.132909775584395]
本稿では条件拡散(DSYM)に基づく半教師付き欠陥検出フレームワークを提案する。
条件拡散モデルでは,複数スケールの擬似欠陥サンプルを合成し,CLIPクロスモーダル特徴量に基づくノイズフィルタリング機構によりラベル汚染を緩和する。
本研究は,工業品質検査シナリオにおける欠陥検出のための高精度で低ラベル依存のソリューションを提供する。
論文 参考訳(メタデータ) (2025-07-08T01:53:34Z) - A Survey on Data Contamination for Large Language Models [12.431575579432458]
大規模言語モデル(LLM)は、テキスト生成やコード合成など、様々な分野で大きな進歩を見せている。
データ汚染による性能評価の信頼性は精査されている。
論文 参考訳(メタデータ) (2025-02-20T10:23:27Z) - How Contaminated Is Your Benchmark? Quantifying Dataset Leakage in Large Language Models with Kernel Divergence [23.019102917957152]
Kernel Divergence Score (KDS) は、サンプル埋め込みのカーネル類似性行列間のばらつきを計算することによって、データセット汚染を評価する新しい手法である。
KDSは汚染レベルとほぼ完璧な相関を示し、既存のベースラインを上回っている。
論文 参考訳(メタデータ) (2025-02-02T05:50:39Z) - KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。
動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。
5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文 参考訳(メタデータ) (2024-02-23T01:30:39Z) - FaultSeg Swin-UNETR: Transformer-Based Self-Supervised Pretraining Model
for Fault Recognition [13.339333273943842]
本稿では,自己教師付き事前学習による地震断層認識の高度化手法を提案する。
我々は,Swin Transformerモデルをコアネットワークとして採用し,SimMIMプレトレーニングタスクを用いて,地震データにおける不連続性に関連する特徴を抽出した。
実験の結果,提案手法は,OISおよびODS測定値から,Thebeデータセット上での最先端性能を実現することができた。
論文 参考訳(メタデータ) (2023-10-27T08:38:59Z) - A Discrepancy Aware Framework for Robust Anomaly Detection [51.710249807397695]
本稿では,DAF(Disdisrepancy Aware Framework)を提案する。
本手法は,デコーダの欠陥同定に外見に依存しないキューを利用して,その合成外観への依存を緩和する。
単純な合成戦略の下では,既存の手法を大きなマージンで上回り,また,最先端のローカライゼーション性能も達成している。
論文 参考訳(メタデータ) (2023-10-11T15:21:40Z) - Hierarchical Semi-Supervised Contrastive Learning for
Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。
コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。
汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文 参考訳(メタデータ) (2022-07-24T18:49:26Z) - Unsupervised Domain Adaptive Salient Object Detection Through
Uncertainty-Aware Pseudo-Label Learning [104.00026716576546]
そこで本研究では,手動のアノテーションを使わずに,自然に高いピクセルラベル品質を有する合成・クリーンなラベルから,サリエンスを学習することを提案する。
提案手法は,複数のベンチマークデータセット上で,既存の最先端の深層教師なしSOD法よりも優れていることを示す。
論文 参考訳(メタデータ) (2022-02-26T16:03:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。