論文の概要: DEREC-SIMPRO: unlock Language Model benefits to advance Synthesis in Data Clean Room
- arxiv url: http://arxiv.org/abs/2411.00879v1
- Date: Thu, 31 Oct 2024 13:02:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2024-11-05 21:27:40.771494
- Title: DEREC-SIMPRO: unlock Language Model benefits to advance Synthesis in Data Clean Room
- Title(参考訳): DEREC-SIMPRO:データクリーンルームにおける高度な合成のためのアンロック言語モデル
- Authors: Tung Sum Thomas Kwok, Chi-hua Wang, Guang Cheng,
- Abstract要約: 本稿では,多テーブルシンセサイザーの適応性を一般化するために,DEREC3ステップ前処理パイプラインを提案する。
また、条件分布と大規模同時仮説テストを利用するSIMPRO3アスペクト評価指標についても紹介する。
その結果,DERECの使用は忠実度を向上し,マルチテーブルシンセサイザーはコラボレーション設定においてシングルテーブルよりも優れていた。
- 参考スコア(独自算出の注目度): 9.784347635082232
- License:
- Abstract: Data collaboration via Data Clean Room offers value but raises privacy concerns, which can be addressed through synthetic data and multi-table synthesizers. Common multi-table synthesizers fail to perform when subjects occur repeatedly in both tables. This is an urgent yet unresolved problem, since having both tables with repeating subjects is common. To improve performance in this scenario, we present the DEREC 3-step pre-processing pipeline to generalize adaptability of multi-table synthesizers. We also introduce the SIMPRO 3-aspect evaluation metrics, which leverage conditional distribution and large-scale simultaneous hypothesis testing to provide comprehensive feedback on synthetic data fidelity at both column and table levels. Results show that using DEREC improves fidelity, and multi-table synthesizers outperform single-table counterparts in collaboration settings. Together, the DEREC-SIMPRO pipeline offers a robust solution for generalizing data collaboration, promoting a more efficient, data-driven society.
- Abstract(参考訳): Data Clean Roomによるデータコラボレーションは価値を提供するが、プライバシの懸念が高まり、合成データとマルチテーブルシンセサイザーを通じて対処できる。
一般的なマルチテーブルシンセサイザーは、両方のテーブルで被験者が繰り返し発生すると実行できない。
これは、繰り返し被写体を持つ両方のテーブルを持つことが一般的であるため、緊急だが未解決の問題である。
このシナリオでの性能向上のために,多段合成器の適応性を一般化するDEREC3ステップ前処理パイプラインを提案する。
また,条件分布と大規模同時仮説テストを利用したSIMPRO3アスペクト評価指標を導入し,カラムレベルとテーブルレベルでの合成データ忠実度に関する総合的なフィードバックを提供する。
その結果,DERECの使用は忠実度を向上し,マルチテーブルシンセサイザーはコラボレーション設定においてシングルテーブルよりも優れていた。
DEREC-SIMPROパイプラインは、データコラボレーションを一般化するための堅牢なソリューションを提供し、より効率的でデータ駆動型社会を促進する。
関連論文リスト
- FastMCTS: A Simple Sampling Strategy for Data Synthesis [67.60823802317141]
我々はモンテカルロ木探索にインスパイアされた革新的なデータ合成戦略であるFastMCTSを紹介する。
FastMCTSは、ステップレベルの評価信号を提供するマルチステップ推論データに対して、より効率的なサンプリング方法を提供する。
英語と中国語の両方の推論データセットの実験では、FastMCTSが30%以上の正しい推論パスを生成することが示されている。
論文 参考訳(メタデータ) (2025-02-17T06:27:57Z) - TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。
TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。
拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文 参考訳(メタデータ) (2025-02-05T03:13:25Z) - SampleLLM: Optimizing Tabular Data Synthesis in Recommendations [46.689486044254544]
タブラルデータ合成は機械学習において重要であるが、既存の一般的な手法は非常にデータに依存しており、レコメンデータシステムでは不足することが多い。
この制限は、複雑な分布を捉え、スパースデータと限定データから特徴関係を理解するのが困難であることから生じる。
そこで本研究では,LLMに基づくデータ合成の品質向上を目的とした,SampleLLMという2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-27T15:12:27Z) - CTSyn: A Foundational Model for Cross Tabular Data Generation [9.568990880984813]
Cross-Table Synthesizer (CTSyn) は、表データ生成に適した拡散ベースの基礎モデルである。
CTSynは、実用性と多様性において既存のテーブルシンセサイザーを著しく上回っている。
また、実際のデータで達成可能なものを超えて、下流機械学習のパフォーマンスを独自に向上させる。
論文 参考訳(メタデータ) (2024-06-07T04:04:21Z) - Differentially Private Synthetic Data Generation for Relational Databases [9.532509662034062]
我々は、既存の差分秘密(DP)合成データ生成機構と組み合わせることができる、第一種アルゴリズムを導入する。
我々のアルゴリズムは、個々の合成テーブル間の関係を反復的に洗練し、近似誤差を最小化する。
論文 参考訳(メタデータ) (2024-05-29T00:25:07Z) - Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large
Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。
本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。
提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文 参考訳(メタデータ) (2023-10-20T17:14:25Z) - Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。
本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文 参考訳(メタデータ) (2022-12-17T02:53:21Z) - Permutation-Invariant Tabular Data Synthesis [14.55825097637513]
入力列の順序を変えることで、実データと合成データの統計的差が最大38.67%悪化することを示す。
AE-GANは,自動エンコーダネットワークを用いて表層データとGANネットワークを表現し,潜在表現を合成する合成器である。
提案手法を,カラム置換に対する感度,合成データの品質,下流解析における有用性の観点から評価した。
論文 参考訳(メタデータ) (2022-11-17T01:14:19Z) - Contrastive Self-supervised Sequential Recommendation with Robust
Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。
データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。
逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文 参考訳(メタデータ) (2021-08-14T07:15:25Z) - SYNC: A Copula based Framework for Generating Synthetic Data from
Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。
我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。
私たちはこの仕事に4つの重要な貢献をしています。
論文 参考訳(メタデータ) (2020-09-20T16:36:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。