論文の概要: Detecting Data Contamination in LLMs via In-Context Learning
- arxiv url: http://arxiv.org/abs/2510.27055v1
- Date: Thu, 30 Oct 2025 23:50:05 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-03 17:52:15.937469
- Title: Detecting Data Contamination in LLMs via In-Context Learning
- Title(参考訳): 文脈学習によるLLMデータの汚染検出
- Authors: Michał Zawalski, Meriem Boubdir, Klaudia Bałazy, Besmira Nushi, Pablo Ribalta,
- Abstract要約: CoDeC(Contamination Detection via Context)は、大規模言語モデルのトレーニングデータ汚染を検出し定量化する手法である。
CoDeCは、トレーニング中に記憶されたデータとトレーニングディストリビューション外のデータを、コンテキスト内学習がモデルパフォーマンスにどのように影響するかを測定することで区別する。
- 参考スコア(独自算出の注目度): 6.339438783063636
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We present Contamination Detection via Context (CoDeC), a practical and accurate method to detect and quantify training data contamination in large language models. CoDeC distinguishes between data memorized during training and data outside the training distribution by measuring how in-context learning affects model performance. We find that in-context examples typically boost confidence for unseen datasets but may reduce it when the dataset was part of training, due to disrupted memorization patterns. Experiments show that CoDeC produces interpretable contamination scores that clearly separate seen and unseen datasets, and reveals strong evidence of memorization in open-weight models with undisclosed training corpora. The method is simple, automated, and both model- and dataset-agnostic, making it easy to integrate with benchmark evaluations.
- Abstract(参考訳): 本研究では,大規模言語モデルにおけるトレーニングデータ汚染の検出と定量化のための,コンテキストによる汚染検出(CoDeC)を提案する。
CoDeCは、トレーニング中に記憶されたデータとトレーニングディストリビューション外のデータを、コンテキスト内学習がモデルパフォーマンスにどのように影響するかを測定することで区別する。
コンテキスト内の例は、通常、目に見えないデータセットの信頼性を高めるが、データセットがトレーニングの一部であったときに、記憶パターンの破壊により、それを減少させる可能性がある。
実験により、CoDeCは、見かけと見えないデータセットを明確に分離した解釈可能な汚染スコアを生成し、未開示のトレーニングコーパスを持つオープンウェイトモデルで記憶の強い証拠を明らかにする。
この方法は単純で自動化されており、モデルとデータセットに依存しないため、ベンチマーク評価との統合が容易である。
関連論文リスト
- Training Flow Matching Models with Reliable Labels via Self-Purification [6.131772929312606]
本稿では,フローマッチングフレームワーク内で信頼できないデータをフィルタリングする手法として,SPFM(Self-Purifying Flow Matching)を提案する。
SPFMは、トレーニングプロセス中にモデル自体を使用して不審なデータを識別し、事前訓練されたモデルや追加モジュールの必要性を回避します。
実験の結果,SPFMでトレーニングしたモデルでは,ノイズラベルでトレーニングした場合でも,特定条件に正確に準拠するサンプルが生成されることがわかった。
論文 参考訳(メタデータ) (2025-09-23T14:43:27Z) - Capturing the Temporal Dependence of Training Data Influence [100.91355498124527]
我々は、訓練中にデータポイントを除去する影響を定量化する、軌跡特異的な離脱の影響の概念を定式化する。
軌道固有LOOの効率的な近似を可能にする新しい手法であるデータ値埋め込みを提案する。
データバリューの埋め込みは、トレーニングデータの順序付けをキャプチャするので、モデルトレーニングのダイナミクスに関する貴重な洞察を提供する。
論文 参考訳(メタデータ) (2024-12-12T18:28:55Z) - Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。
混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。
UE識別のための反復フィルタリング手法を提案する。
論文 参考訳(メタデータ) (2024-08-15T13:26:13Z) - Extracting Training Data from Unconditional Diffusion Models [76.85077961718875]
拡散確率モデル(DPM)は、生成人工知能(AI)の主流モデルとして採用されている。
本研究の目的は,1) 理論解析のための記憶量,2) 情報ラベルとランダムラベルを用いた条件記憶量,3) 記憶量測定のための2つのより良い評価指標を用いて,DPMにおける記憶量の理論的理解を確立することである。
提案手法は,理論解析に基づいて,SIDE (textbfSurrogate condItional Data extract) と呼ばれる新しいデータ抽出手法を提案する。
論文 参考訳(メタデータ) (2024-06-18T16:20:12Z) - Self-training Large Language Models through Knowledge Detection [26.831873737733737]
大規模な言語モデル(LLM)は、ダウンストリームタスク間で印象的なパフォーマンスを達成するために、広範囲のラベル付きデータセットとトレーニング計算を必要とすることが多い。
本稿では,LLMが独自ラベルを自動でキュレートし,未知のデータサンプルを選択的に学習する自己学習パラダイムについて検討する。
経験的評価は、複数の被験者にまたがる世代における幻覚の減少に有意な改善を示した。
論文 参考訳(メタデータ) (2024-06-17T07:25:09Z) - Unlearning Traces the Influential Training Data of Language Models [31.33791825286853]
アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。
よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文 参考訳(メタデータ) (2024-01-26T23:17:31Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Bring Your Own Data! Self-Supervised Evaluation for Large Language
Models [52.15056231665816]
大規模言語モデル(LLM)の自己教師型評価のためのフレームワークを提案する。
閉書知識,毒性,長期文脈依存性を測定するための自己指導型評価戦略を実証する。
自己監督評価と人監督評価との間には強い相関関係が認められた。
論文 参考訳(メタデータ) (2023-06-23T17:59:09Z) - Data Contamination: From Memorization to Exploitation [5.997909991352044]
下流タスクにおいて、モデルがどのように汚染されたデータを悪用しているかは明らかではない。
我々は、ウィキペディアの共同コーパスでBERTモデルを事前訓練し、下流データセットをラベル付けし、関連するタスクでそれらを微調整する。
2つのモデルと3つのダウンストリームタスクによる実験では、いくつかのケースでは悪用が存在するが、他のケースでは、汚染されたデータを記憶しているが、悪用しない。
論文 参考訳(メタデータ) (2022-03-15T20:37:16Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。