論文の概要: Detecting Distillation Data from Reasoning Models
- arxiv url: http://arxiv.org/abs/2510.04850v1
- Date: Mon, 06 Oct 2025 14:37:02 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-07 16:52:59.902946
- Title: Detecting Distillation Data from Reasoning Models
- Title(参考訳): 共振モデルから蒸留データを検出する
- Authors: Hengxiang Zhang, Hyeong Kyu Choi, Yixuan Li, Hongxin Wei,
- Abstract要約: 推論蒸留は、大規模言語モデルの推論能力を高めるための効率的で強力なパラダイムとして登場した。
しかし, 推理蒸留は, 必然的にベンチマーク汚染を引き起こす可能性があり, 蒸留データセットに含まれる評価データは, 蒸留モデルの性能指標をインフレーションすることができる。
本稿では, 生成した出力トークンの確率パターンを利用する, 新規で効果的なToken Probability Deviation(TBD)を提案する。
- 参考スコア(独自算出の注目度): 35.042445465049404
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Reasoning distillation has emerged as an efficient and powerful paradigm for enhancing the reasoning capabilities of large language models. However, reasoning distillation may inadvertently cause benchmark contamination, where evaluation data included in distillation datasets can inflate performance metrics of distilled models. In this work, we formally define the task of distillation data detection, which is uniquely challenging due to the partial availability of distillation data. Then, we propose a novel and effective method Token Probability Deviation (TBD), which leverages the probability patterns of the generated output tokens. Our method is motivated by the analysis that distilled models tend to generate near-deterministic tokens for seen questions, while producing more low-probability tokens for unseen questions. Our key idea behind TBD is to quantify how far the generated tokens' probabilities deviate from a high reference probability. In effect, our method achieves competitive detection performance by producing lower scores for seen questions than for unseen questions. Extensive experiments demonstrate the effectiveness of our method, achieving an AUC of 0.918 and a TPR@1% FPR of 0.470 on the S1 dataset.
- Abstract(参考訳): 推論蒸留は、大規模言語モデルの推論能力を高めるための効率的で強力なパラダイムとして登場した。
しかし, 推理蒸留は, 必然的にベンチマーク汚染を引き起こす可能性があり, 蒸留データセットに含まれる評価データは, 蒸留モデルの性能指標をインフレーションすることができる。
本研究では, 蒸留データ検出の課題を正式に定義する。
そこで,本研究では,生成した出力トークンの確率パターンを利用する,新規で効果的なToken Probability Deviation(TBD)を提案する。
本手法は, 蒸留モデルを用いて, 目に見えない質問に対してほぼ決定論的なトークンを生成する一方で, 目に見えない質問に対してより低確率なトークンを生成する傾向が示唆された。
TBDの背後にある重要な考え方は、生成したトークンの確率が、高い基準確率からどれだけ逸脱するかを定量化することです。
本手法は, 未知の質問に対してよりも低いスコアを出力することにより, 競合検出性能を実現する。
S1 データセット上での AUC 0.918 と TPR@1% の FPR 0.470 を達成し,本手法の有効性を実証した。
関連論文リスト
- Denoising Score Distillation: From Noisy Diffusion Pretraining to One-Step High-Quality Generation [82.39763984380625]
低品質データから高品質な生成モデルをトレーニングするための驚くほど効果的で斬新なアプローチであるDSD(Denoising score distillation)を導入する。
DSDはノイズの多い劣化したサンプルにのみ拡散モデルを事前訓練し、精製されたクリーンな出力を生成することができる1ステップの発電機に蒸留する。
論文 参考訳(メタデータ) (2025-03-10T17:44:46Z) - DSDE: Using Proportion Estimation to Improve Model Selection for Out-of-Distribution Detection [15.238164468992148]
CIFAR10とCIFAR100の実験結果から,OoD検出問題に対処するためのアプローチの有効性が示された。
提案手法をDOS-Storey-based Detector Ensemble (DSDE) と呼ぶ。
論文 参考訳(メタデータ) (2024-11-03T09:01:36Z) - Exploring the potential of prototype-based soft-labels data distillation for imbalanced data classification [0.0]
主な目的は、分類精度の観点からプロトタイプベースの軟質ラベル蒸留の性能を高めることである。
実験的研究は、この方法でデータを蒸留する能力だけでなく、増量法として機能する機会も追求している。
論文 参考訳(メタデータ) (2024-03-25T19:15:19Z) - Distill Gold from Massive Ores: Bi-level Data Pruning towards Efficient Dataset Distillation [96.92250565207017]
本研究では,データセット蒸留作業におけるデータ効率と選択について検討する。
蒸留の力学を再現することにより、実際のデータセットに固有の冗長性についての洞察を提供する。
蒸留における因果関係から最も寄与した試料を見出した。
論文 参考訳(メタデータ) (2023-05-28T06:53:41Z) - Explicit and Implicit Knowledge Distillation via Unlabeled Data [5.702176304876537]
高速な計算機生成装置を代替する効率的な未ラベルサンプル選択法を提案する。
また,データ領域シフトによるラベルノイズを抑制するためのクラスドロップ機構を提案する。
実験結果から,本手法が他の最先端手法よりも高速に収束し,精度が向上できることが示唆された。
論文 参考訳(メタデータ) (2023-02-17T09:10:41Z) - Leveraging Unlabeled Data to Predict Out-of-Distribution Performance [63.740181251997306]
実世界の機械学習デプロイメントは、ソース(トレーニング)とターゲット(テスト)ディストリビューションのミスマッチによって特徴づけられる。
本研究では,ラベル付きソースデータとラベルなしターゲットデータのみを用いて,対象領域の精度を予測する手法を検討する。
本稿では,モデルの信頼度をしきい値として学習し,精度をラベルなし例のごく一部として予測する実践的手法である平均閾値保持信頼度(ATC)を提案する。
論文 参考訳(メタデータ) (2022-01-11T23:01:12Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。