論文の概要: It does what it says on the tin: safe synthetic data from coarsened margins
- arxiv url: http://arxiv.org/abs/2606.02101v1
- Date: Mon, 01 Jun 2026 11:32:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-06-02 21:34:31.888692
- Title: It does what it says on the tin: safe synthetic data from coarsened margins
- Title(参考訳): 粗いマージンから安全な合成データ。
- Authors: Gillian M Raab,
- Abstract要約: 本稿では、ユーザにとって重要な2つの利点を持つ合成データ(SD)を作成する方法を提案する。
SDを受信した人は、元のデータ内の変数間の関係のどれがSDで概ね維持されるかを知る。
このようなSDを作成するための実践的なステップは、1901年のスコットランド国勢調査のデータを用いて説明されている。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: This paper proposes a method of creating synthetic data (SD) that will have two important advantages for the user compared to other methods currently available. The first is transparency; unlike other methods, the person in receipt of the SD will know which of the relationships between variables in the original data will be approximately maintained in the SD. The second is a guarantee that the SD is derived from information that has already been judged to be free of disclosure risk. This is achieved by first defining and calculating the margins where relationships between variables will be maintained in the SD. Each margin will then be subject to statistical disclosure control (SDC) to the standards defined by the data custodian, e.g. top-coding and bottom-coding, combination of small categories and/or modifying small counts. Further adjustment of the curated margins is advised by coarsening all counts in the table to multiples of the disclosure limit. These adjusted margins are used to create SD by the Iterative Proportional Fitting (IPF) algorithm. The practical steps involved in creating such SD are illustrated using data from the 1901 Census of Scotland.
- Abstract(参考訳): 本稿では、現在利用可能な他の方法と比較して、ユーザにとって2つの重要な利点を持つ合成データ(SD)を作成する方法を提案する。
1つは透明性であり、他の方法とは異なり、SDを受け取っている人は、元のデータ内の変数間の関係のどれがSDで概ね維持されるかを知る。
2つ目は、SDが既に情報開示のリスクがないと判断された情報に由来するという保証である。
これはまず、変数間の関係がSD内で維持されるマージンを定義して計算することで達成される。
それぞれのマージンは、データカストディアン、egトップコーディング、ボトムコーディング、小さなカテゴリの組み合わせ、または小さなカウントの変更によって定義された標準に統計開示制御(SDC)を受ける。
キュレートされたマージンのさらなる調整は、表内の全てのカウントを開示限界の倍数に粗めることによってアドバイスされる。
これらの調整されたマージンは、Iterative Proportional Fitting (IPF)アルゴリズムによってSDを作成するために使用される。
このようなSDを作成するための実践的なステップは、1901年のスコットランド国勢調査のデータを用いて説明されている。
関連論文リスト
- Improving Noise Efficiency in Privacy-preserving Dataset Distillation [59.57846442477106]
本稿では,最適化からサンプリングを分離してコンバージェンスを向上し,信号品質を向上させる新しいフレームワークを提案する。
CIFAR-10では,従来の最先端手法の蒸留セットサイズを5分の1に減らして,クラス毎50イメージでtextbf10.0%,クラス毎50イメージで textbf8.3%向上した。
論文 参考訳(メタデータ) (2025-08-03T13:15:52Z) - An Interactive Framework for Implementing Privacy-Preserving Federated Learning: Experiments on Large Language Models [7.539653242367701]
フェデレートラーニング(FL)は、ユーザのデータをローカルデバイスに保存することで、プライバシを高める。
最近の攻撃は、トレーニング中にユーザーが共有したアップデートが、データに関する重要な情報を明らかにすることを実証している。
プライバシ実践者としての人間エンティティを統合し,モデルのプライバシとユーティリティの最適なトレードオフを決定するフレームワークを提案する。
論文 参考訳(メタデータ) (2025-02-11T23:07:14Z) - Is merging worth it? Securely evaluating the information gain for causal dataset acquisition [9.373086204998348]
我々は、マージの価値を定量化するための、最初の暗号的にセキュアな情報理論アプローチを導入する。
我々は、多要素計算を用いて予測情報ゲイン(EIG)を評価し、生データが明らかにされないようにする。
さらに、我々のアプローチは、任意のプライバシー要件を満たすために、差分プライバシー(DP)と組み合わせることができることを実証する。
論文 参考訳(メタデータ) (2024-09-11T12:17:01Z) - ALF: Adaptive Label Finetuning for Scene Graph Generation [116.59868289196157]
画像中の被写体と物体の関係を予測するためのシーングラフ生成の試み
関係の長期分布は、しばしば粗いラベルの偏りの予測につながり、SGGにおいて大きなハードルとなる。
我々はSGGに1段階のデータ転送パイプラインを導入し、ALF(Adaptive Label Finetuning)と呼ばれ、追加のトレーニングセッションを不要にする。
ALFは一般的なSGG法であるMotifに比べてmR@100が16%改善され、最先端のIETransに比べて計算コストは6%増加した。
論文 参考訳(メタデータ) (2023-12-29T01:37:27Z) - Dataset Condensation with Latent Space Knowledge Factorization and
Sharing [73.31614936678571]
与えられたデータセットの規則性を利用してデータセットの凝縮問題を解決する新しい手法を提案する。
データセットを元の入力空間に直接凝縮するのではなく、学習可能な一連のコードでデータセットの生成プロセスを仮定する。
提案手法は,様々なベンチマークデータセットに対して,有意なマージンで新しい最先端記録を達成できることを実験的に示す。
論文 参考訳(メタデータ) (2022-08-21T18:14:08Z) - Fine-grained Data Distribution Alignment for Post-Training Quantization [100.82928284439271]
学習後量子化の性能を高めるために,データ分散アライメント(FDDA)法を提案する。
提案手法は,特に第1層と第2層が低ビットに量子化されている場合,ImageNet上での最先端性能を示す。
論文 参考訳(メタデータ) (2021-09-09T11:45:52Z) - TOHAN: A One-step Approach towards Few-shot Hypothesis Adaptation [73.75784418508033]
少数ショットドメイン適応(FDA)では、ターゲットドメインの分類器は、ソースドメイン(SD)内のラベル付きデータとターゲットドメイン(TD)内のラベル付きデータとで訓練される。
データは通常、現在の時代の個人情報(例えば、携帯電話に分散されたデータ)を含んでいる。
本稿では,その問題を解決するために,目標指向仮説適応ネットワーク(TOHAN)を提案する。
論文 参考訳(メタデータ) (2021-06-11T11:46:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。