論文の概要: Bag of Tricks for Training Data Extraction from Language Models
- arxiv url: http://arxiv.org/abs/2302.04460v2
- Date: Thu, 1 Jun 2023 10:14:55 GMT
- ステータス: 処理完了
- システム内更新日: 2023-06-03 00:22:44.167386
- Title: Bag of Tricks for Training Data Extraction from Language Models
- Title(参考訳): 言語モデルからデータ抽出を訓練するためのトリックのバグ
- Authors: Weichen Yu, Tianyu Pang, Qian Liu, Chao Du, Bingyi Kang, Yan Huang,
Min Lin, Shuicheng Yan
- Abstract要約: 公開データセットを用いてトレーニングデータ抽出を改善するための手法とベンチマーク手法について検討する。
実験結果から,これまで見過ごされていたいくつかのトリックが,トレーニングデータ抽出の成功に不可欠であることが示唆された。
- 参考スコア(独自算出の注目度): 98.40637430115204
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: With the advance of language models, privacy protection is receiving more
attention. Training data extraction is therefore of great importance, as it can
serve as a potential tool to assess privacy leakage. However, due to the
difficulty of this task, most of the existing methods are proof-of-concept and
still not effective enough. In this paper, we investigate and benchmark tricks
for improving training data extraction using a publicly available dataset.
Because most existing extraction methods use a pipeline of
generating-then-ranking, i.e., generating text candidates as potential training
data and then ranking them based on specific criteria, our research focuses on
the tricks for both text generation (e.g., sampling strategy) and text ranking
(e.g., token-level criteria). The experimental results show that several
previously overlooked tricks can be crucial to the success of training data
extraction. Based on the GPT-Neo 1.3B evaluation results, our proposed tricks
outperform the baseline by a large margin in most cases, providing a much
stronger baseline for future research. The code is available at
https://github.com/weichen-yu/LM-Extraction.
- Abstract(参考訳): 言語モデルの進歩により、プライバシー保護はより注目を集めている。
そのため、プライバシー漏洩を評価する潜在的なツールとして機能するため、データ抽出のトレーニングは非常に重要である。
しかし、この作業の難しさから、既存の手法のほとんどは概念実証であり、まだ有効ではない。
本稿では,公開データセットを用いたトレーニングデータ抽出手法の検討とベンチマーク手法を提案する。
既存の抽出方法は,テキスト候補を潜在的訓練データとして生成し,特定の基準に基づいてランク付けするパイプラインを使用するため,テキスト生成(サンプリング戦略など)とテキストランキング(トークンレベルの基準など)の両方のトリックに注目している。
実験の結果,これまで見過ごされていたいくつかの手技が,トレーニングデータ抽出の成功に不可欠であることが判明した。
gpt-neo 1.3bの評価結果に基づいて,提案手法は,多くの場合においてベースラインを大きなマージンで上回り,今後の研究においてはるかに強力なベースラインとなる。
コードはhttps://github.com/weichen-yu/lm-extractionで入手できる。
関連論文リスト
- Ethicist: Targeted Training Data Extraction Through Loss Smoothed Soft
Prompting and Calibrated Confidence Estimation [56.57532238195446]
本研究では,対象とするトレーニングデータ抽出のためのEthicistという手法を提案する。
メモリ化を誘発するため、モデルを固定しながらソフトなプロンプト埋め込みをチューニングする。
我々は,最近提案された公開ベンチマークにおいて,エティシストが抽出性能を著しく向上することを示す。
論文 参考訳(メタデータ) (2023-07-10T08:03:41Z) - Revisit Few-shot Intent Classification with PLMs: Direct Fine-tuning vs.
Continual Pre-training [19.299285312415734]
少量のラベル付きデータのみを使用して、基礎となる意図に基づいて発話を分類するために、深層学習モデルを訓練する。
この課題に対するPLMの過度な適合問題は、予想されるほど深刻ではないため、継続事前学習は必須ではない可能性がある。
限られた利用可能なデータの利用を最大化するために,コンテキスト拡張法を提案し,逐次自己蒸留を利用して性能を向上させる。
論文 参考訳(メタデータ) (2023-06-08T15:26:52Z) - A Large Scale Search Dataset for Unbiased Learning to Rank [51.97967284268577]
我々は、非バイアス学習のためのBaidu-ULTRデータセットをランク付けする。
ランダムに12億の検索セッションと7,008のエキスパートアノテートクエリをサンプリングする。
1)本来のセマンティックな特徴と,使用が容易な事前学習言語モデル,(2)位置,表示高さ,抽象表現などの十分な表示情報,(3)居住時間のような検索結果ページ(SERP)に対するリッチなユーザフィードバックを提供する。
論文 参考訳(メタデータ) (2022-07-07T02:37:25Z) - Privacy Leakage in Text Classification: A Data Extraction Approach [9.045332526072828]
テキスト分類領域における潜在的なプライバシー漏洩について,意図しないトレーニングデータの暗記の問題を調査して検討する。
モデルによって提供されるクラスラベルの可能性を利用して,部分テキストの欠落トークンを抽出するアルゴリズムを提案する。
論文 参考訳(メタデータ) (2022-06-09T16:14:26Z) - Training Data is More Valuable than You Think: A Simple and Effective
Method by Retrieving from Training Data [82.92758444543689]
検索に基づく手法は,外部知識を導入してNLPタスクに有効であることが示されている。
意外なことに、Retrieving from the training datA (REINA) は複数のNLGおよびNLUタスクにおいて大きな改善をもたらすことが判明した。
実験結果から,本手法は様々なNLUタスクやNLGタスクにおいて,大幅な性能向上が期待できることがわかった。
論文 参考訳(メタデータ) (2022-03-16T17:37:27Z) - Self-training Improves Pre-training for Natural Language Understanding [63.78927366363178]
我々は、半教師付き学習を通じてラベルのないデータを活用する別の方法として、自己学習について研究する。
本稿では,ラベル付きデータからタスク固有のクエリの埋め込みを計算するデータ拡張手法であるSentAugmentを紹介する。
我々のアプローチは、標準的なテキスト分類ベンチマークで最大2.6%の改善を達成し、スケーラブルで効果的な自己学習に繋がる。
論文 参考訳(メタデータ) (2020-10-05T17:52:25Z) - Omni-supervised Facial Expression Recognition via Distilled Data [120.11782405714234]
ネットワークトレーニングにおいて,信頼度の高いサンプルを多量のラベルのないデータで活用するためのオムニ教師付き学習を提案する。
我々は,新しいデータセットが学習したFERモデルの能力を大幅に向上させることができることを実験的に検証した。
そこで本研究では,生成したデータセットを複数のクラスワイド画像に圧縮するために,データセット蒸留戦略を適用することを提案する。
論文 参考訳(メタデータ) (2020-05-18T09:36:51Z) - Snippext: Semi-supervised Opinion Mining with Augmented Data [22.07271774127334]
Snippextは言語モデル上で開発された意見マイニングシステムである。
Snippextの斬新さは、ラベル付きトレーニングデータが少なく、最先端(SOTA)のパフォーマンスを達成するための2つの簡単なアプローチを巧妙に利用していることだ。
論文 参考訳(メタデータ) (2020-02-07T23:54:23Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。