論文の概要: Detecting Benchmark Contamination Through Watermarking
- arxiv url: http://arxiv.org/abs/2502.17259v1
- Date: Mon, 24 Feb 2025 15:39:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-02-25 15:55:52.447060
- Title: Detecting Benchmark Contamination Through Watermarking
- Title(参考訳): 透かしによるベンチマーク汚染の検出
- Authors: Tom Sander, Pierre Fernandez, Saeed Mahloujifar, Alain Durmus, Chuan Guo,
- Abstract要約: ベンチマーク汚染は、大規模言語モデルの評価の信頼性に重大な課題をもたらす。
リリース前にベンチマークを透かし、ソリューションを導入します。
ベンチマーク汚染を制御した10Bトークン上で,スクラッチから1Bモデルを事前学習することにより,本手法を検証した。
- 参考スコア(独自算出の注目度): 34.02200099612061
- License:
- Abstract: Benchmark contamination poses a significant challenge to the reliability of Large Language Models (LLMs) evaluations, as it is difficult to assert whether a model has been trained on a test set. We introduce a solution to this problem by watermarking benchmarks before their release. The embedding involves reformulating the original questions with a watermarked LLM, in a way that does not alter the benchmark utility. During evaluation, we can detect ``radioactivity'', \ie traces that the text watermarks leave in the model during training, using a theoretically grounded statistical test. We test our method by pre-training 1B models from scratch on 10B tokens with controlled benchmark contamination, and validate its effectiveness in detecting contamination on ARC-Easy, ARC-Challenge, and MMLU. Results show similar benchmark utility post-watermarking and successful contamination detection when models are contaminated enough to enhance performance, e.g. $p$-val $=10^{-3}$ for +5$\%$ on ARC-Easy.
- Abstract(参考訳): ベンチマーク汚染は、モデルがテストセットでトレーニングされたかどうかを断定することが難しいため、LLM(Large Language Models)評価の信頼性に重大な課題をもたらす。
リリース前にベンチマークを透かし、この問題に対する解決策を紹介します。
埋め込みには、ベンチマークユーティリティを変更しない方法で、透かし付きLLMで元の質問を再構築することが含まれる。
評価では, テキスト透かしが学習中にモデルに残されていることを, 理論的に根拠付けられた統計的テストを用いて追跡する。
制御ベンチマークによる10Bトークンのスクラッチから1Bモデルを事前学習し,ARC-Easy,ARC-Challenge,MMLUの汚染検出の有効性を検証した。
同様のベンチマークでは,ARC-Easy 上で +5$\%$ に対して,モデルが性能を向上するために十分に汚染されている場合,ポストウォーターマーキングと汚染検出が成功している。
関連論文リスト
- Robust Detection of Watermarks for Large Language Models Under Human Edits [27.678152860666163]
そこで本研究では,人間の編集下での透かし検出のための不適切な良性テストの形で,新しい手法を提案する。
我々は,Gumbel-GoF透かしのロバスト検出において,Tr-GoF試験が最適性を達成することを証明した。
また, Tr-GoF試験は, 適度なテキスト修正方式において, 高い検出効率が得られることを示した。
論文 参考訳(メタデータ) (2024-11-21T06:06:04Z) - Provably Robust Watermarks for Open-Source Language Models [5.509756888700397]
オープンソースの言語モデルに対する最初の透かし方式を紹介する。
我々のスキームはモデルのパラメータを変更することで機能するが、透かしはモデルの出力だけから検出できる。
おそらく驚くべきことに、我々の透かしは敵の知識に関する特定の仮定の下では取り除けないことを証明している。
論文 参考訳(メタデータ) (2024-10-24T15:44:34Z) - PaCoST: Paired Confidence Significance Testing for Benchmark Contamination Detection in Large Language Models [41.772263447213234]
大規模言語モデル(LLM)は膨大な量のデータに基づいて訓練されることが知られており、意図的または故意によく使われるベンチマークのデータを含むことがある。
このインクルージョンは、モデルリーダーボードの不正な高いスコアにつながるが、現実のアプリケーションではパフォーマンスに失望する。
LLMのベンチマーク汚染を効果的に検出するPaired Confidence Significance TestingであるPaCoSTを紹介する。
論文 参考訳(メタデータ) (2024-06-26T13:12:40Z) - Watermarking Low-entropy Generation for Large Language Models: An Unbiased and Low-risk Method [6.505831742654826]
STA-1は、予想された元のトークン分布を保存する不偏の透かしである。
低エントロピーおよび高エントロピーデータセットの実験結果は、STA-1が上記の特性を同時に達成できることを証明している。
論文 参考訳(メタデータ) (2024-05-23T14:17:29Z) - Finding needles in a haystack: A Black-Box Approach to Invisible Watermark Detection [68.90458499700038]
WaterMark Detection (WMD) は、ブラックボックスとアノテーションなしの設定下で最初に目に見えない透かし検出法である。
我々はオフセット学習の基礎を用いてWMDを開発し、クリーンな非透かしデータセットにより、透かしサンプルのみの影響を分離することができる。
論文 参考訳(メタデータ) (2024-03-23T23:22:54Z) - WaterBench: Towards Holistic Evaluation of Watermarks for Large Language Models [48.19623266082828]
WaterBenchは、大規模言語モデル(LLM)における透かしの最初の包括的なベンチマークである。
LLM透かしの最初の総合的なベンチマークであるWaterBenchを紹介し、3つの重要な要素を設計する。
オープンソースの透かしを2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/2ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/3ドル/
論文 参考訳(メタデータ) (2023-11-13T08:09:01Z) - Rethinking Benchmark and Contamination for Language Models with
Rephrased Samples [49.18977581962162]
大規模な言語モデルは、これまで人間が生成したすべてのデータに基づいて、ますます訓練されている。
多くの人は、事前トレーニングや微調整のデータセットが汚染される可能性があるとして、公開ベンチマークの信頼性を懸念している。
論文 参考訳(メタデータ) (2023-11-08T17:35:20Z) - ClearMark: Intuitive and Robust Model Watermarking via Transposed Model
Training [50.77001916246691]
本稿では,人間の直感的な評価を目的とした最初のDNN透かし手法であるClearMarkを紹介する。
ClearMarkは目に見える透かしを埋め込んで、厳格な値閾値なしで人間の意思決定を可能にする。
8,544ビットの透かし容量は、現存する最強の作品に匹敵する。
論文 参考訳(メタデータ) (2023-10-25T08:16:55Z) - DiffWA: Diffusion Models for Watermark Attack [8.102989872457156]
ウォーターマーク攻撃のための距離誘導付き条件拡散モデルDiffWAを提案する。
提案手法のコアとなるのは,非透かし画像上の画像から画像への条件付き拡散モデルを訓練することである。
その結果, モデルが良好な効果で透かしを除去し, 透かし抽出のビット誤り率を0.4以上にすることができることがわかった。
論文 参考訳(メタデータ) (2023-06-22T10:45:49Z) - LLMs as Factual Reasoners: Insights from Existing Benchmarks and Beyond [135.8013388183257]
そこで我々は,SummEditsと呼ばれる10ドメインのベンチマークで不整合検出ベンチマークを作成し,実装する新しいプロトコルを提案する。
ほとんどのLLMはSummEditsで苦労しており、パフォーマンスはランダムに近い。
最も優れたモデルであるGPT-4は、推定された人間のパフォーマンスよりも8%低い。
論文 参考訳(メタデータ) (2023-05-23T21:50:06Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。