論文の概要: Extracting alignment data in open models
- arxiv url: http://arxiv.org/abs/2510.18554v2
- Date: Thu, 23 Oct 2025 21:46:43 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-27 11:27:44.462526
- Title: Extracting alignment data in open models
- Title(参考訳): オープンモデルにおけるアライメントデータの抽出
- Authors: Federico Barbero, Xiangming Gu, Christopher A. Choquette-Choo, Chawin Sitawarin, Matthew Jagielski, Itay Yona, Petar Veličković, Ilia Shumailov, Jamie Hayes,
- Abstract要約: 訓練後モデルから大量のアライメントトレーニングデータを抽出できることが示唆された。
このデータは、長期コンテキスト推論、安全性、命令追従、数学などの特定の機能を改善するためにモデルを操縦するのに有用である。
SFT や RL のような後トレーニングフェーズで使用されたトレーニングデータを,モデルが容易に再学習できることが判明した。
- 参考スコア(独自算出の注目度): 50.81383232591576
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: In this work, we show that it is possible to extract significant amounts of alignment training data from a post-trained model -- useful to steer the model to improve certain capabilities such as long-context reasoning, safety, instruction following, and maths. While the majority of related work on memorisation has focused on measuring success of training data extraction through string matching, we argue that embedding models are better suited for our specific goals. Distances measured through a high quality embedding model can identify semantic similarities between strings that a different metric such as edit distance will struggle to capture. In fact, in our investigation, approximate string matching would have severely undercounted (by a conservative estimate of $10\times$) the amount of data that can be extracted due to trivial artifacts that deflate the metric. Interestingly, we find that models readily regurgitate training data that was used in post-training phases such as SFT or RL. We show that this data can be then used to train a base model, recovering a meaningful amount of the original performance. We believe our work exposes a possibly overlooked risk towards extracting alignment data. Finally, our work opens up an interesting discussion on the downstream effects of distillation practices: since models seem to be regurgitating aspects of their training set, distillation can therefore be thought of as indirectly training on the model's original dataset.
- Abstract(参考訳): 本研究では,学習後モデルから大量のアライメントトレーニングデータを抽出し,長文推論,安全性,指示追従,数学などの特定の能力を向上させるためにモデルを操るのに役立つことを示す。
暗記に関するほとんどの研究は文字列マッチングによるデータ抽出のトレーニングの成功を測ることに重点を置いているが、埋め込みモデルは我々の特定の目標に適していると我々は主張する。
高品質な埋め込みモデルを通じて測定された距離は、編集距離などの異なるメトリックがキャプチャーに苦しむ文字列間の意味的類似性を識別することができる。
実際、我々の調査では、近似文字列マッチングは(保守的な推定で10\times$)、計量をデフレする自明なアーティファクトによって抽出できるデータの量を著しく過小評価していただろう。
興味深いことに、SFTやRLのような後トレーニングフェーズで使用されたトレーニングデータを、モデルが容易に再学習できることが分かる。
このデータを使用してベースモデルをトレーニングし、元のパフォーマンスの有意義な量を回復できることを示します。
当社の作業は、アライメントデータを抽出する上で、見落とされがちなリスクを露呈していると考えています。
モデルはトレーニングセットの側面をゆがめているように見えるので、蒸留はモデルの元々のデータセットを間接的にトレーニングしたものと考えることができる。
関連論文リスト
- Nonparametric Data Attribution for Diffusion Models [57.820618036556084]
生成モデルのデータ属性は、個々のトレーニング例がモデル出力に与える影響を定量化する。
生成画像とトレーニング画像のパッチレベルの類似性によって影響を測定する非パラメトリック属性法を提案する。
論文 参考訳(メタデータ) (2025-10-16T03:37:16Z) - Weak Reward Model Transforms Generative Models into Robust Causal Event Extraction Systems [17.10762463903638]
我々は人的評価を近似するために評価モデルを訓練し、高い合意を得る。
そこで本研究では,アノテートデータの一部を用いて評価モデルを訓練する弱強監督手法を提案する。
論文 参考訳(メタデータ) (2024-06-26T10:48:14Z) - Towards Adversarially Robust Dataset Distillation by Curvature Regularization [11.02948004359488]
データセット蒸留(DD)は、豊富な分散情報を保持しながら、データセットを元のサイズの分数に蒸留することができる。
この領域の最近の研究は、蒸留データセットで訓練されたモデルの精度向上に重点を置いている。
そこで本研究では, 従来の逆算法よりも計算オーバーヘッドの少ない蒸留プロセスに曲率正規化を組み込むことにより, この目標を達成する新しい手法を提案する。
論文 参考訳(メタデータ) (2024-03-15T06:31:03Z) - Unlearning Traces the Influential Training Data of Language Models [31.33791825286853]
アンラーニングは、トレーニングデータセットがモデルの性能に与える影響をトレースする。
よりスケーラブルなアプローチであるUnTrac-Invを提案し、テストデータセットを解放し、トレーニングデータセットの未学習モデルを評価する。
論文 参考訳(メタデータ) (2024-01-26T23:17:31Z) - Scalable Extraction of Training Data from (Production) Language Models [93.7746567808049]
本稿では,学習データセットの事前知識を必要とせず,機械学習モデルに問い合わせることで,相手が効率的に抽出できる学習データについて検討する。
敵は、PythiaやGPT-Neoのようなオープンソースの言語モデル、LLaMAやFalconのようなセミオープンモデル、ChatGPTのようなクローズドモデルから、ギガバイトのトレーニングデータを抽出できることを示す。
論文 参考訳(メタデータ) (2023-11-28T18:47:03Z) - TRAK: Attributing Model Behavior at Scale [79.56020040993947]
本稿では,大規模な微分モデルに対して有効かつ計算的に抽出可能なデータ属性法であるTRAK(Tracing with Randomly-trained After Kernel)を提案する。
論文 参考訳(メタデータ) (2023-03-24T17:56:22Z) - Contrastive Model Inversion for Data-Free Knowledge Distillation [60.08025054715192]
そこで、データ多様性を最適化可能な目的として明示的にモデル化するContrastive Model Inversionを提案します。
我々の主な観察では、同じ量のデータの制約の下では、高いデータの多様性は、通常より強いインスタンス識別を示す。
CIFAR-10, CIFAR-100, Tiny-ImageNetを用いた実験により, 生成したデータを知識蒸留に使用する場合, CMIは極めて優れた性能を示すことが示された。
論文 参考訳(メタデータ) (2021-05-18T15:13:00Z) - Data Impressions: Mining Deep Models to Extract Samples for Data-free
Applications [26.48630545028405]
データインプレッションはトレーニングデータのプロキシとして機能し、さまざまなタスクを実現するために使用することができる。
いくつかのコンピュータビジョンタスクにおけるデータインプレッションの適用性を示す。
論文 参考訳(メタデータ) (2021-01-15T11:37:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。