Fugu-MT 論文翻訳(概要): CAP: Data Contamination Detection via Consistency Amplification

論文の概要: CAP: Data Contamination Detection via Consistency Amplification

arxiv url: http://arxiv.org/abs/2410.15005v1
Date: Sat, 19 Oct 2024 06:33:33 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:37.839373
Title: CAP: Data Contamination Detection via Consistency Amplification
Title（参考訳）: CAP:一貫性増幅によるデータ汚染検出
Authors: Yi Zhao, Jing Li, Linyi Yang,
Abstract要約: 大規模言語モデル(LLM)は広く使われているが、データの汚染に関する懸念は信頼性に疑問を呈している。本稿では,データセットの漏洩量を測定するためのPCR(Performance Consistency Ratio)を導入した新しいフレームワークである Consistency Amplification-based Data Contamination Detection (CAP)を提案する。 CAPは様々なベンチマークに適用でき、ホワイトボックスモデルとブラックボックスモデルの両方で動作する。
参考スコア（独自算出の注目度）: 20.135264289668463
License: http://creativecommons.org/licenses/by-nc-nd/4.0/
Abstract: Large language models (LLMs) are widely used, but concerns about data contamination challenge the reliability of LLM evaluations. Existing contamination detection methods are often task-specific or require extra prerequisites, limiting practicality. We propose a novel framework, Consistency Amplification-based Data Contamination Detection (CAP), which introduces the Performance Consistency Ratio (PCR) to measure dataset leakage by leveraging LM consistency. To the best of our knowledge, this is the first method to explicitly differentiate between fine-tuning and contamination, which is crucial for detecting contamination in domain-specific models. Additionally, CAP is applicable to various benchmarks and works for both white-box and black-box models. We validate CAP's effectiveness through experiments on seven LLMs and four domain-specific benchmarks. Our findings also show that composite benchmarks from various dataset sources are particularly prone to unintentional contamination. Codes will be publicly available soon.
Abstract（参考訳）: 大規模言語モデル(LLM)は広く用いられているが、データ汚染に関する懸念はLLM評価の信頼性に挑戦する。既存の汚染検出方法は、しばしばタスク特化または追加の前提条件を必要とし、実用性を制限する。本稿では, LM の整合性を利用してデータセットの漏洩を測定するために, PCR (Performance Consistency Ratio) を導入した新しいフレームワークである Consistency Amplification-based Data Contamination Detection (CAP) を提案する。我々の知る限りでは、これはドメイン固有モデルの汚染を検出するために不可欠である微調整と汚染を明確に区別する最初の方法である。加えて、CAPは様々なベンチマークに適用でき、ホワイトボックスモデルとブラックボックスモデルの両方で動作する。 CAPの有効性は、7つのLLMと4つのドメイン固有ベンチマークの実験を通して検証する。また, 各種データセットからの総合的なベンチマークは, 特に意図しない汚染の傾向が示唆された。コードも近く公開される予定だ。

関連論文リスト

Contamination Detection for VLMs using Multi-Modal Semantic Perturbation [73.76465227729818]
オープンソースのVision-Language Models (VLM)は、ベンチマークタスクで最先端のパフォーマンスを達成した。プレトレーニングコーパスは,テストセットリークによるパフォーマンスの低下という,実践者とユーザ双方にとって重要な懸念を提起する。既存の検出手法が不整合性を示すか,不整合性を示すかを示す。マルチモーダルなセマンティック摂動に基づく,新しい簡易かつ効果的な検出法を提案する。
論文参考訳（メタデータ） (2025-11-05T18:59:52Z)
VeriContaminated: Assessing LLM-Driven Verilog Coding for Data Contamination [15.52442661491358]
大規模言語モデル(LLM)はコード生成に革命をもたらし、様々な確立されたベンチマークフレームワークで例外的な結果を得た。しかし、データ汚染に関する懸念は、これらの評価の有効性に関する疑問を提起する。我々は、Verilogコード生成のための最先端(SOTA)評価フレームワークを解析する。
論文参考訳（メタデータ） (2025-03-17T12:26:49Z)
A Survey on Data Contamination for Large Language Models [12.431575579432458]
大規模言語モデル(LLM)は、テキスト生成やコード合成など、様々な分野で大きな進歩を見せている。データ汚染による性能評価の信頼性は精査されている。
論文参考訳（メタデータ） (2025-02-20T10:23:27Z)
Preference Leakage: A Contamination Problem in LLM-as-a-judge [69.96778498636071]
審査員としてのLLM(Large Language Models)とLLMに基づくデータ合成は、2つの基本的なLLM駆動型データアノテーション法として登場した。本研究では, 合成データ生成器とLCMに基づく評価器の関連性に起因するLCM-as-a-judgeの汚染問題である選好リークを明らかにする。
論文参考訳（メタデータ） (2025-02-03T17:13:03Z)
MMLU-CF: A Contamination-free Multi-task Language Understanding Benchmark [57.999567012489706]
我々は,MMLU-CFと呼ばれる汚染のない,より困難なベンチマークを提案する。このベンチマークは、意図しないデータ漏洩と悪意のないデータ漏洩の両方を回避することで、LLMの世界の知識に対する理解を再評価する。 GPT-4o は 5 ショットスコア73.4% と 0 ショットスコア71.9% しか達成できない。
論文参考訳（メタデータ） (2024-12-19T18:58:04Z)
Evaluation data contamination in LLMs: how do we measure it and (when) does it matter? [10.691754344782387]
どのサンプルを汚染されるべきか、それがベンチマークスコアに与える影響を正確に定義することは困難である。本稿では,ConTAMと呼ばれる新しい分析手法を提案する。汚染は最近のLCMリリースで報告されたよりもはるかに大きな効果を示し、異なるスケールで異なるモデルに利益をもたらす可能性がある。
論文参考訳（メタデータ） (2024-11-06T13:54:08Z)
Both Text and Images Leaked! A Systematic Analysis of Data Contamination in Multimodal LLM [53.05486269607166]
マルチモーダルな大言語モデル (MLLM) はベンチマーク間で大幅に性能が向上した。マルチモーダルデータ複雑性とマルチフェーズトレーニングのため,既存のLLM検出手法はMLLMでは不十分である。我々は分析フレームワークMM-Detectを用いてマルチモーダルデータの汚染を分析する。
論文参考訳（メタデータ） (2024-11-06T10:44:15Z)
Towards Data Contamination Detection for Modern Large Language Models: Limitations, Inconsistencies, and Oracle Challenges [3.0455427910850785]
我々は,8つの挑戦的データセットにまたがる4つの最先端LCMを用いた5つの汚染検出手法を評価する。解析の結果,現在の手法は仮定や応用に非自明な制約があることが明らかとなった。
論文参考訳（メタデータ） (2024-09-16T02:04:33Z)
LogProber: Disentangling confidence from contamination in LLM responses [17.91379291654773]
機械学習において、汚染とは、データテストがトレーニングセットにリークする状況を指す。ブラックボックスの設定で汚染を検知できる新しい,効率的なアルゴリズムであるLogProberを紹介した。
論文参考訳（メタデータ） (2024-08-26T15:29:34Z)
Unlearnable Examples Detection via Iterative Filtering [84.59070204221366]
ディープニューラルネットワークは、データ中毒攻撃に弱いことが証明されている。混合データセットから有毒なサンプルを検出することは極めて有益であり、困難である。 UE識別のための反復フィルタリング手法を提案する。
論文参考訳（メタデータ） (2024-08-15T13:26:13Z)
PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。 LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文参考訳（メタデータ） (2024-06-26T13:12:40Z)
Anomaly Detection of Tabular Data Using LLMs [54.470648484612866]
我々は,事前訓練された大規模言語モデル (LLM) がゼロショットバッチレベルの異常検出器であることを示す。本稿では,実異常検出におけるLCMの潜在性を明らかにするために,エンドツーエンドの微調整手法を提案する。
論文参考訳（メタデータ） (2024-06-24T04:17:03Z)
Generalization or Memorization: Data Contamination and Trustworthy Evaluation for Large Language Models [42.958880063727996]
CDD は LLM の出力分布による汚染検出の略である。評価におけるデータ汚染の影響を軽減するため、TED:出力分布による信頼に値する評価も提示する。
論文参考訳（メタデータ） (2024-02-24T23:54:41Z)
KIEval: A Knowledge-grounded Interactive Evaluation Framework for Large Language Models [53.84677081899392]
KIEvalは、大規模言語モデルのための知識ベースでインタラクティブな評価フレームワークである。動的汚染耐性評価を達成するために、LSMを動力とする"インターアクター"の役割を初めて取り入れている。 5つのデータセットにわたる7つのLLMの大規模な実験により、KIEvalの有効性と一般化が検証された。
論文参考訳（メタデータ） (2024-02-23T01:30:39Z)
Rethinking Benchmark and Contamination for Language Models with Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文参考訳（メタデータ） (2023-11-08T17:35:20Z)
LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文参考訳（メタデータ） (2023-05-23T21:50:06Z)
Hierarchical Semi-Supervised Contrastive Learning for Contamination-Resistant Anomaly Detection [81.07346419422605]
異常検出は、通常のデータ分布から逸脱したサンプルを特定することを目的としている。コントラスト学習は、異常の効果的な識別を可能にする表現のサンプル化に成功している。汚染耐性異常検出のための新しい階層型半教師付きコントラスト学習フレームワークを提案する。
論文参考訳（メタデータ） (2022-07-24T18:49:26Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。