論文の概要: Training on the Test Model: Contamination in Ranking Distillation
- arxiv url: http://arxiv.org/abs/2411.02284v1
- Date: Mon, 04 Nov 2024 17:11:14 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-09 19:50:59.178188
- Title: Training on the Test Model: Contamination in Ranking Distillation
- Title(参考訳): 試験モデルによるトレーニング:ランク付け蒸留における汚染
- Authors: Vishakha Suresh Kalal, Andrew Parry, Sean MacAvaney,
- Abstract要約: 蒸留における汚染された教師モデルの効果について検討する。
教師のトレーニングサンプルのごく一部を表すテストデータであっても,汚染が生じることが判明した。
- 参考スコア(独自算出の注目度): 14.753216172912968
- License:
- Abstract: Neural approaches to ranking based on pre-trained language models are highly effective in ad-hoc search. However, the computational expense of these models can limit their application. As such, a process known as knowledge distillation is frequently applied to allow a smaller, efficient model to learn from an effective but expensive model. A key example of this is the distillation of expensive API-based commercial Large Language Models into smaller production-ready models. However, due to the opacity of training data and processes of most commercial models, one cannot ensure that a chosen test collection has not been observed previously, creating the potential for inadvertent data contamination. We, therefore, investigate the effect of a contaminated teacher model in a distillation setting. We evaluate several distillation techniques to assess the degree to which contamination occurs during distillation. By simulating a ``worst-case'' setting where the degree of contamination is known, we find that contamination occurs even when the test data represents a small fraction of the teacher's training samples. We, therefore, encourage caution when training using black-box teacher models where data provenance is ambiguous.
- Abstract(参考訳): 事前学習言語モデルに基づくランク付けへのニューラルアプローチはアドホック検索に非常に効果的である。
しかし、これらのモデルの計算コストは応用を制限することができる。
そのため、より小型で効率的なモデルが効果的だが高価なモデルから学べるように、知識蒸留と呼ばれるプロセスが頻繁に適用される。
この重要な例は、高価なAPIベースの商用Large Language Modelsを、より小さなプロダクション対応モデルに蒸留することである。
しかしながら、ほとんどの商用モデルのトレーニングデータやプロセスの不透明さのため、選択されたテストコレクションが以前に観測されていないことを保証できないため、不注意なデータ汚染の可能性がある。
そこで, 蒸留施設における汚染された教師モデルの効果について検討した。
蒸留における汚染発生度を評価するため, いくつかの蒸留技術の評価を行った。
汚染の度合いが分かるような‘Worst-case’設定をシミュレートすることで、テストデータが教師のトレーニングサンプルのごく一部を表す場合でも汚染が発生することが分かる。
そこで,黒箱教師モデルを用いたトレーニングでは,データの曖昧さに注意を喚起する。
関連論文リスト
- uDistil-Whisper: Label-Free Data Filtering for Knowledge Distillation in Low-Data Regimes [34.947522647009436]
ラベル付きデータを用いることなく,大きなWhisperモデルを比較的小さなモデルに蒸留できることを示す。
私たちのモデルは、教師モデルと同等以上の性能を維持しながら、計算効率とメモリ効率も25~50%向上しています。
論文 参考訳(メタデータ) (2024-07-01T13:07:01Z) - Small Effect Sizes in Malware Detection? Make Harder Train/Test Splits! [51.668411293817464]
業界関係者は、モデルが数億台のマシンにデプロイされているため、マルウェア検出精度の小さな改善に気を配っている。
学術研究はしばしば1万のサンプルの順序で公開データセットに制限される。
利用可能なサンプルのプールから難易度ベンチマークを生成するためのアプローチを考案する。
論文 参考訳(メタデータ) (2023-12-25T21:25:55Z) - Estimating Contamination via Perplexity: Quantifying Memorisation in
Language Model Evaluation [2.4173424114751114]
本稿では,全トレーニングセットにアクセスせずに汚染を定量化する新しい手法を提案する。
我々の分析は、一般的な読み理解、要約ベンチマークにおいて、最近の基礎モデルの顕著な記憶の証拠を提供する一方で、複数の選択が汚染されていないように見える。
論文 参考訳(メタデータ) (2023-09-19T15:02:58Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - HomoDistil: Homotopic Task-Agnostic Distillation of Pre-trained
Transformers [49.79405257763856]
本稿では,タスク非依存蒸留に焦点をあてる。
これは、計算コストとメモリフットプリントを小さくして、様々なタスクで簡単に微調整できるコンパクトな事前訓練モデルを生成する。
本稿では, 反復刈り込みによる新規なタスク非依存蒸留法であるHomotopic Distillation (HomoDistil)を提案する。
論文 参考訳(メタデータ) (2023-02-19T17:37:24Z) - Recognition of Defective Mineral Wool Using Pruned ResNet Models [88.24021148516319]
我々はミネラルウールのための視覚品質管理システムを開発した。
ウール標本のX線画像が収集され、欠陥および非欠陥サンプルのトレーニングセットが作成された。
我々は98%以上の精度のモデルを得たが、同社の現在の手順と比較すると、20%以上の欠陥製品を認識することができる。
論文 参考訳(メタデータ) (2022-11-01T13:58:02Z) - Robust and Resource-Efficient Data-Free Knowledge Distillation by Generative Pseudo Replay [5.3330804968579795]
データ自由知識蒸留(Data-Free Knowledge Distillation, KD)は、トレーニングされたニューラルネットワーク(教師)から、元のトレーニングデータがない場合にはよりコンパクトなニューラルネットワーク(学生)への知識伝達を可能にする。
既存の作業では、実際のデータよりも生徒の精度を監視し、プロセス全体を通して最高のパフォーマンスを報告するための検証セットが使用されている。
しかし、蒸留時にも検証データが入手できないため、ピーク精度を達成した生徒のスナップショットを記録することは不可能である。
これは、学生が合成データの分布シフトによって知識劣化を経験するからである。
これまでに観測された合成試料の分布をモデル化する。
論文 参考訳(メタデータ) (2022-01-09T14:14:28Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。