Fugu-MT 論文翻訳(概要): Post-processing Private Synthetic Data for Improving Utility on Selected Measures

論文の概要: Post-processing Private Synthetic Data for Improving Utility on Selected Measures

arxiv url: http://arxiv.org/abs/2305.15538v2
Date: Thu, 19 Oct 2023 00:55:40 GMT
ステータス: 翻訳完了
システム内更新日: 2023-10-20 20:11:35.228121
Title: Post-processing Private Synthetic Data for Improving Utility on Selected Measures
Title（参考訳）: 選択された措置の効用を改善するための私的合成データ処理
Authors: Hao Wang, Shivchander Sudalairaj, John Henning, Kristjan Greenewald, Akash Srivastava
Abstract要約: 本稿では,エンドユーザが選択した尺度に関して,合成データの有用性を向上するポストプロセッシング手法を提案する。我々のアプローチは、複数のベンチマークデータセットと最先端の合成データ生成アルゴリズムにまたがる合成データの有用性を一貫して改善する。
参考スコア（独自算出の注目度）: 7.371282202708775
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Existing private synthetic data generation algorithms are agnostic to downstream tasks. However, end users may have specific requirements that the synthetic data must satisfy. Failure to meet these requirements could significantly reduce the utility of the data for downstream use. We introduce a post-processing technique that improves the utility of the synthetic data with respect to measures selected by the end user, while preserving strong privacy guarantees and dataset quality. Our technique involves resampling from the synthetic data to filter out samples that do not meet the selected utility measures, using an efficient stochastic first-order algorithm to find optimal resampling weights. Through comprehensive numerical experiments, we demonstrate that our approach consistently improves the utility of synthetic data across multiple benchmark datasets and state-of-the-art synthetic data generation algorithms.
Abstract（参考訳）: 既存のプライベート合成データ生成アルゴリズムは、ダウンストリームタスクに依存しない。しかし、エンドユーザは、合成データが満たさなければならない特定の要件を持つかもしれない。これらの要件を満たさないと、ダウンストリーム使用のためのデータの有用性が大幅に低下する可能性がある。本稿では,エンドユーザが選択した尺度に対する合成データの有効性を向上し,強力なプライバシー保証とデータセットの品質を保った後処理手法を提案する。提案手法では, 効率的な確率的一階法アルゴリズムを用いて, 最適再サンプリング重みを求めることにより, 選択した実用対策に適合しないサンプルを抽出する。総合的な数値実験を通じて,本手法は,複数のベンチマークデータセットと最先端合成データ生成アルゴリズムをまたいだ合成データの有用性を一貫して向上させることを実証する。

関連論文リスト

UtilGen: Utility-Centric Generative Data Augmentation with Dual-Level Task Adaptation [70.2215233759276]
UtilGenは、コンピュータビジョンタスクのための新しいユーティリティ中心のデータ拡張フレームワークである。 UtilGenは、常に優れたデータセットを達成しており、平均精度は以前のSOTAよりも3.87%向上している。データの影響と分布のさらなる分析により、UtilGenはより影響のあるタスク関連合成データを生成することが明らかになった。
論文参考訳（メタデータ） (2025-10-28T10:17:11Z)
Understanding the Influence of Synthetic Data for Text Embedders [52.04771455432998]
まず,Wangらによって提案された合成データの再生と公開を行った。合成データがモデル一般化をどのように改善するかを批判的に検討する。本研究は, 汎用インバータ構築における, 現在の合成データ手法の限界を浮き彫りにしたものである。
論文参考訳（メタデータ） (2025-09-07T19:28:52Z)
Procedural Environment Generation for Tool-Use Agents [55.417058694785325]
我々はRandomWorldを紹介した。これは対話型ツールと合成ツール利用データの手続き的生成のためのパイプラインである。我々は,SFTとRLによるRandomWorldの合成データによるモデル調整により,様々なツール使用ベンチマークが改良されたことを示す。
論文参考訳（メタデータ） (2025-05-21T14:10:06Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
Opinion: Revisiting synthetic data classifications from a privacy perspective [42.12937192948916]
合成データは、AI開発の増大するデータ要求を満たすための費用対効果のソリューションとして浮上している。従来の合成データ型の分類は、合成データを生成するための絶え間なく増加する手法を反映していない。我々は、プライバシーの観点をよりよく反映した、合成データ型をグループ化する、別のアプローチを例に挙げる。
論文参考訳（メタデータ） (2025-03-05T13:54:13Z)
ResoFilter: Fine-grained Synthetic Data Filtering for Large Language Models through Data-Parameter Resonance Analysis [11.300050385809586]
モデル,データ,タスクを統合してデータセットを洗練するための新しい手法であるResoFilterを提案する。我々の実験は、ResoFilterがフルスケールの微調整に匹敵する結果が得られることを示した。この方法は、合成データセットの構築と高品質なデータ評価に有用な洞察を提供する。
論文参考訳（メタデータ） (2024-12-19T12:57:47Z)
SynFER: Towards Boosting Facial Expression Recognition with Synthetic Data [78.70620682374624]
ハイレベルなテキスト記述に基づく表情画像データの合成のための新しいフレームワークであるSynFERを紹介する。合成データの質と信頼性を確保するため,セマンティックガイダンス手法と擬似ラベル生成手法を提案する。その結果, 提案手法の有効性と合成データの有効性が検証された。
論文参考訳（メタデータ） (2024-10-13T14:58:21Z)
Improving Grammatical Error Correction via Contextual Data Augmentation [49.746484518527716]
本研究では,文脈拡張に基づく合成データ構築手法を提案する。具体的には、ルールベースの置換とモデルベースの生成を組み合わせる。また,合成データにおけるノイズラベルの効果を軽減するために,レザベリングに基づくデータクリーニング手法を提案する。
論文参考訳（メタデータ） (2024-06-25T10:49:56Z)
Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文参考訳（メタデータ） (2024-06-18T08:38:59Z)
Hierarchical Features Matter: A Deep Exploration of GAN Priors for Improved Dataset Distillation [51.44054828384487]
階層的生成潜在蒸留(H-GLaD)と呼ばれる新しいパラメータ化法を提案する。本手法はGAN内の階層層を系統的に探索する。さらに,合成データセット評価に伴う計算負担を軽減するために,新しいクラス関連特徴距離尺度を導入する。
論文参考訳（メタデータ） (2024-06-09T09:15:54Z)
Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文参考訳（メタデータ） (2024-01-31T17:38:34Z)
Trading Off Scalability, Privacy, and Performance in Data Synthesis [11.698554876505446]
a) Howsoエンジンを導入し、(b)ランダムプロジェクションに基づく合成データ生成フレームワークを提案する。 Howsoエンジンが生成する合成データは、プライバシーと正確性に優れており、その結果、総合的なスコアが最高の結果となる。提案するランダム・プロジェクション・ベース・フレームワークは,高い精度で合成データを生成することができ,スケーラビリティが最速である。
論文参考訳（メタデータ） (2023-12-09T02:04:25Z)
Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文参考訳（メタデータ） (2023-10-25T20:32:02Z)
Differentially Private Data Generation with Missing Data [25.242190235853595]
我々は、差分プライバシー(DP)合成データの問題点を、欠落した値で定式化する。本稿では,合成データの有効性を大幅に向上させる3つの効果的な適応戦略を提案する。全体として、この研究は、プライベートな合成データ生成アルゴリズムを使用する際の課題と機会をより深く理解することに貢献している。
論文参考訳（メタデータ） (2023-10-17T19:41:54Z)
Bridging the Gap: Enhancing the Utility of Synthetic Data via Post-Processing Techniques [7.967995669387532]
生成モデルは、実世界のデータを置き換えたり拡張したりできる合成データセットを生成するための有望なソリューションとして登場した。本稿では,合成データセットの品質と多様性を向上させるために,新しい3つのポストプロセッシング手法を提案する。 Gap Filler(GaFi)は、Fashion-MNIST、CIFAR-10、CIFAR-100データセットにおいて、実精度スコアとのギャップを2.03%、1.78%、および3.99%に効果的に減少させることを示した。
論文参考訳（メタデータ） (2023-05-17T10:50:38Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Differentially Private Algorithms for Synthetic Power System Datasets [0.0]
電力システムの研究は、現実世界のネットワークデータセットの可用性に依存している。データ所有者は、セキュリティとプライバシーのリスクのためにデータを共有することをためらっている。我々は、最適化と機械学習データセットの合成生成のためのプライバシー保護アルゴリズムを開発する。
論文参考訳（メタデータ） (2023-03-20T13:38:58Z)
Dataset Condensation via Efficient Synthetic-Data Parameterization [40.56817483607132]
大量のデータを持つ機械学習は、膨大な計算コストと、トレーニングとチューニングのためのストレージの価格が伴う。データセットの凝縮に関する最近の研究は、コンパクトなトレーニングデータセットを合成することで、そのような大量のデータへの依存を減らそうとしている。本稿では,データ規則性を考慮した効率的なパラメータ化により,ストレージ予算に制限のある複数の合成データを生成する,新しい凝縮フレームワークを提案する。
論文参考訳（メタデータ） (2022-05-30T09:55:31Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。