論文の概要: ContinuousBench: Can Differentially Private Synthetic Text Improve Capabilities?
- arxiv url: http://arxiv.org/abs/2606.01849v2
- Date: Tue, 02 Jun 2026 02:54:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-03 18:57:50.47223
- Title: ContinuousBench: Can Differentially Private Synthetic Text Improve Capabilities?
- Title(参考訳): ContinuousBench: 差分的にプライベートな合成テキストは機能を改善するか?
- Authors: Peihan Liu, Lucas Rosenblatt, Weiwei Kong, Natalia Ponomareva, Gautam Kamath, Rachel Cummings, Roxana Geambasu, Yu Gan, Lillian Tsai, Alex Bie,
- Abstract要約: ContinuousBenchは、差分プライベート(DP)テキスト合成から得られる能力を測定する。
Geminonは、架空の生物に関する手続き的に生成されたデータセットで、Newsは、新しくクロールされたニュース記事のストリームだ。
- 参考スコア(独自算出の注目度): 17.374764978151365
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Differentially private (DP) text synthesis promises to unlock sensitive corpora for model training, but it remains unclear whether DP synthetic data transmits genuinely new knowledge and capabilities present only in those corpora. This is because existing evaluations rely on tasks that are nearly solvable without training, so strong benchmark performance does not establish that DP synthesis can substitute original data access. Thus, we introduce ContinuousBench, a continuously and automatically-regenerated benchmark that measures capability gain from DP synthetic text. Each quarter, a new release pairs a never-before-seen training corpus with a derived QA set, constructed to be: (1) unsolvable sans-corpus; and (2) learnable under DP, as the tested knowledge is supported by hundreds of independent records. Researchers produce DP synthetic data from the training corpus and run our standardized training and evaluation harness on their synthetic data to measure gains. We instantiate two tracks: Geminon, a procedurally-generated dataset about fictional creatures; and News, a stream of newly crawled public news articles. Although standard benchmarks are nearly saturated, on ContinuousBench we find that non-private synthesis transfers substantial knowledge from the original corpus, while state-of-the-art DP synthesis methods generally fail to do so, even at $\varepsilon=100$.
- Abstract(参考訳): 差分的プライベート(DP)テキスト合成は、モデルトレーニングのための機密コーパスをアンロックすることを約束するが、DP合成データがそれらのコーパスにのみ存在する真に新しい知識と能力を伝達するかどうかは不明である。
これは、既存の評価がトレーニングなしでほぼ解決可能なタスクに依存しているため、強力なベンチマーク性能は、DP合成が元のデータアクセスを置き換えることを証明していないためである。
そこで我々は,DP合成テキストから得られる能力を測定する連続的かつ自動生成ベンチマークであるContinuousBenchを紹介する。
新たなリリースは、(1)未解決のサンスコーパス、(2)テストされた知識が数百の独立した記録に支えられているDPで学習可能な、派生したQAセットと、前例のないトレーニングコーパスをペアリングする。
研究者は、トレーニングコーパスからDP合成データを作成し、標準トレーニングと評価ハーネスを合成データ上で実行し、ゲインを測定する。
Geminonは、架空の生物に関する手続き的に生成されたデータセットで、Newsは、新しくクロールされたニュース記事のストリームだ。
標準のベンチマークはほぼ飽和しているが、ContinuousBenchでは、非プライベートな合成が元のコーパスからかなりの知識を伝達するのに対して、最先端のDP合成法は、通常、$\varepsilon=100$の値であっても、そうしない。
関連論文リスト
- Not All Synthetic Data Is Yours to Learn From [68.13136636413601]
弱い自己学習は、事前訓練モデルにすでに存在する能力を増幅できることを示す。
我々はこれを、プロンプトフリーな無条件自己学習の最小設定で研究する。
論文 参考訳(メタデータ) (2026-05-29T10:34:11Z) - Generating Pretraining Tokens from Organic Data for Data-Bound Scaling [28.30636190022749]
SynProは、LLMが限られた有機データからより深く学習するのに役立つ合成データ生成フレームワークである。
我々は,DCLMベースラインからチンチラ最適トークン(0.8Bおよび2.2B)の10%を有する400Mおよび1.1Bモデルを事前訓練した。
以上の結果から, 有機データは標準的繰り返しによって著しく過小評価されていることが明らかとなった。
論文 参考訳(メタデータ) (2026-05-18T04:44:40Z) - Synthetic bootstrapped pretraining [52.92577542049469]
本稿では,SBP(Synthetic Bootstrapped Pretraining)について述べる。
SBPはまず、事前学習データセットから文書間の関係のモデルを学び、次にそれを利用して巨大な新しいコーパスを合成する。
SBPは高い繰り返しベースラインを継続的に改善し、オラクル上界で達成可能な性能改善のかなりの部分を提供する。
論文 参考訳(メタデータ) (2025-09-17T22:28:27Z) - Term2Note: Synthesising Differentially Private Clinical Notes from Medical Terms [22.19967672101843]
Term2Note は、DP の強い制約の下で、長い臨床ノートを読むための方法論である。
実際の臨床ノートと密接に一致した統計特性を持つ合成ノートを生成する。
これは、より少ない仮定の下で運用しながら、忠実さと実用性の両方において大幅に改善される。
論文 参考訳(メタデータ) (2025-09-13T16:26:38Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Does Differentially Private Synthetic Data Lead to Synthetic Discoveries? [1.9573380763700712]
評価は、テストのタイプIとタイプIIのエラーの観点から行われる。
評価結果の大部分は,特にプライバシー予算が$epsilonleq 1$である場合に,I型エラーが劇的に膨らんだ。
論文 参考訳(メタデータ) (2024-03-20T14:03:57Z) - Differentially Private Synthetic Data via Foundation Model APIs 2: Text [56.13240830670327]
現実世界で生成された高品質なテキストデータはプライベートであり、プライバシー上の懸念から自由に共有したり、利用したりすることはできない。
テキストの複雑な設定に適用可能な拡張PEアルゴリズムであるAug-PEを提案する。
その結果, Aug-PE は SOTA DP の微調整ベースラインと競合する DP 合成テキストを生成することがわかった。
論文 参考訳(メタデータ) (2024-03-04T05:57:50Z) - Harnessing large-language models to generate private synthetic text [18.863579044812703]
DP-SGDのような異なるプライベートトレーニングアルゴリズムは、トレーニングされたモデルがプライベート情報を公開しないことを保証することで、センシティブなトレーニングデータを保護する。
本稿では、原データに対して差分的にプライベートな合成データを生成し、その合成データに基づいてモデルを非プライベートに訓練する代替手法について検討する。
プライベートな合成データを作るのは プライベートなモデルを訓練するより はるかに難しい
論文 参考訳(メタデータ) (2023-06-02T16:59:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。