Fugu-MT 論文翻訳(概要): DEREC-SIMPRO: unlock Language Model benefits to advance Synthesis in Data Clean Room

論文の概要: DEREC-SIMPRO: unlock Language Model benefits to advance Synthesis in Data Clean Room

arxiv url: http://arxiv.org/abs/2411.00879v1
Date: Thu, 31 Oct 2024 13:02:55 GMT
ステータス: 翻訳完了
システム内更新日: 2024-11-28 17:07:43.475768
Title: DEREC-SIMPRO: unlock Language Model benefits to advance Synthesis in Data Clean Room
Title（参考訳）: DEREC-SIMPRO:データクリーンルームにおける高度な合成のためのアンロック言語モデル
Authors: Tung Sum Thomas Kwok, Chi-hua Wang, Guang Cheng,
Abstract要約: 本稿では,多テーブルシンセサイザーの適応性を一般化するために,DEREC3ステップ前処理パイプラインを提案する。また、条件分布と大規模同時仮説テストを利用するSIMPRO3アスペクト評価指標についても紹介する。その結果,DERECの使用は忠実度を向上し,マルチテーブルシンセサイザーはコラボレーション設定においてシングルテーブルよりも優れていた。
参考スコア（独自算出の注目度）: 9.784347635082232
License: http://creativecommons.org/licenses/by/4.0/
Abstract: Data collaboration via Data Clean Room offers value but raises privacy concerns, which can be addressed through synthetic data and multi-table synthesizers. Common multi-table synthesizers fail to perform when subjects occur repeatedly in both tables. This is an urgent yet unresolved problem, since having both tables with repeating subjects is common. To improve performance in this scenario, we present the DEREC 3-step pre-processing pipeline to generalize adaptability of multi-table synthesizers. We also introduce the SIMPRO 3-aspect evaluation metrics, which leverage conditional distribution and large-scale simultaneous hypothesis testing to provide comprehensive feedback on synthetic data fidelity at both column and table levels. Results show that using DEREC improves fidelity, and multi-table synthesizers outperform single-table counterparts in collaboration settings. Together, the DEREC-SIMPRO pipeline offers a robust solution for generalizing data collaboration, promoting a more efficient, data-driven society.
Abstract（参考訳）: Data Clean Roomによるデータコラボレーションは価値を提供するが、プライバシの懸念が高まり、合成データとマルチテーブルシンセサイザーを通じて対処できる。一般的なマルチテーブルシンセサイザーは、両方のテーブルで被験者が繰り返し発生すると実行できない。これは、繰り返し被写体を持つ両方のテーブルを持つことが一般的であるため、緊急だが未解決の問題である。このシナリオでの性能向上のために,多段合成器の適応性を一般化するDEREC3ステップ前処理パイプラインを提案する。また,条件分布と大規模同時仮説テストを利用したSIMPRO3アスペクト評価指標を導入し,カラムレベルとテーブルレベルでの合成データ忠実度に関する総合的なフィードバックを提供する。その結果,DERECの使用は忠実度を向上し,マルチテーブルシンセサイザーはコラボレーション設定においてシングルテーブルよりも優れていた。 DEREC-SIMPROパイプラインは、データコラボレーションを一般化するための堅牢なソリューションを提供し、より効率的でデータ駆動型社会を促進する。

関連論文リスト

PluRel: Synthetic Data unlocks Scaling Laws for Relational Foundation Models [51.42043158297229]
マルチタブラルリレーショナルデータベースをスクラッチから合成するフレームワークであるPluelを紹介する。ステップバイステップの方法では,(1)有向グラフのスキーマ,(2)二部グラフのテーブル間一次外部キー接続,(3)条件因果機構によるテーブル内の特徴分布をモデル化する。
論文参考訳（メタデータ） (2026-02-03T21:35:18Z)
RelDiff: Relational Data Generative Modeling with Graph-Based Diffusion Models [83.6013616017646]
RelDiffは、外部キーグラフ構造を明示的にモデル化することによって完全な関係データベースを合成する新しい拡散生成モデルである。 RelDiffは、現実的で一貫性のある合成リレーショナルデータベースの作成において、従来手法よりも一貫して優れている。
論文参考訳（メタデータ） (2025-05-31T21:01:02Z)
Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文参考訳（メタデータ） (2025-03-25T11:07:12Z)
LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。 LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。 LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文参考訳（メタデータ） (2025-03-04T00:47:52Z)
TD3: Tucker Decomposition Based Dataset Distillation Method for Sequential Recommendation [50.23504065567638]
本稿では,メタラーニングフレームワークにおける textbfDataset textbfDistillation 手法である textbfTD3 を紹介する。 TD3は、オリジナルのデータから完全に表現力のある合成配列の要約を蒸留する。拡張技術により、学習者は合成要約を忠実に適合させ、アンプループでの正確な更新を確実にすることができる。
論文参考訳（メタデータ） (2025-02-05T03:13:25Z)
SampleLLM: Optimizing Tabular Data Synthesis in Recommendations [46.689486044254544]
タブラルデータ合成は機械学習において重要であるが、既存の一般的な手法は非常にデータに依存しており、レコメンデータシステムでは不足することが多い。この制限は、複雑な分布を捉え、スパースデータと限定データから特徴関係を理解するのが困難であることから生じる。そこで本研究では,LLMに基づくデータ合成の品質向上を目的とした,SampleLLMという2段階のフレームワークを提案する。
論文参考訳（メタデータ） (2025-01-27T15:12:27Z)
A Framework for Fine-Tuning LLMs using Heterogeneous Feedback [69.51729152929413]
ヘテロジニアスフィードバックを用いた大規模言語モデル(LLM)の微調整フレームワークを提案する。まず、不均一なフィードバックデータをSFTやRLHFなどの手法と互換性のある単一の監視形式にまとめる。次に、この統合されたフィードバックデータセットから、性能向上を得るために高品質で多様なサブセットを抽出する。
論文参考訳（メタデータ） (2024-08-05T23:20:32Z)
CTSyn: A Foundational Model for Cross Tabular Data Generation [9.568990880984813]
Cross-Table Synthesizer (CTSyn) は、表データ生成に適した拡散ベースの基礎モデルである。 CTSynは、実用性と多様性において既存のテーブルシンセサイザーを著しく上回っている。また、実際のデータで達成可能なものを超えて、下流機械学習のパフォーマンスを独自に向上させる。
論文参考訳（メタデータ） (2024-06-07T04:04:21Z)
Adapting Differentially Private Synthetic Data to Relational Databases [9.532509662034062]
我々は、既存の差分秘密(DP)合成データ生成機構と組み合わせることができる、第一種アルゴリズムを導入する。我々のアルゴリズムは、個々の合成テーブル間の関係を反復的に洗練し、近似誤差を最小化する。
論文参考訳（メタデータ） (2024-05-29T00:25:07Z)
A Comparison of SynDiffix Multi-table versus Single-table Synthetic Data [0.7252027234425334]
SynDiffixは構造化データ合成のための新しいオープンソースツールである。匿名化機能があり、強力な匿名性を維持しながら複数の合成テーブルを生成することができる。本稿では、SDNIST分析フレームワークを用いて、SynDiffixと15の合成データ技術を比較した。
論文参考訳（メタデータ） (2024-03-13T12:26:50Z)
Retrosynthesis prediction enhanced by in-silico reaction data augmentation [66.5643280109899]
RetroWISEは,実データから推定されるベースモデルを用いて,シリコン内反応の生成と増大を行うフレームワークである。 3つのベンチマークデータセットで、RetroWISEは最先端モデルに対して最高の全体的なパフォーマンスを達成する。
論文参考訳（メタデータ） (2024-01-31T07:40:37Z)
Let's Synthesize Step by Step: Iterative Dataset Synthesis with Large Language Models by Extrapolating Errors from Small Models [69.76066070227452]
※データ合成*はラベル付きデータの少ない小さなモデルをトレーニングするための有望な方法です。本稿では,この分散ギャップを縮めるデータ合成フレームワークであるStep* (**S3**) による合成ステップを提案する。提案手法は,合成データセットと実データとのギャップを小さくすることで,小型モデルの性能を向上させる。
論文参考訳（メタデータ） (2023-10-20T17:14:25Z)
Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文参考訳（メタデータ） (2023-05-16T07:30:29Z)
Importance of Synthesizing High-quality Data for Text-to-SQL Parsing [71.02856634369174]
最先端のテキストから重み付けアルゴリズムは、強化された合成データでトレーニングされた場合、一般的なベンチマークでは改善されなかった。本稿では,スキーマから重要な関係を取り入れ,強い型付けを課し,スキーマ重み付きカラムサンプリングを行う新しいフレームワークを提案する。
論文参考訳（メタデータ） (2022-12-17T02:53:21Z)
Permutation-Invariant Tabular Data Synthesis [14.55825097637513]
入力列の順序を変えることで、実データと合成データの統計的差が最大38.67%悪化することを示す。 AE-GANは,自動エンコーダネットワークを用いて表層データとGANネットワークを表現し,潜在表現を合成する合成器である。提案手法を,カラム置換に対する感度,合成データの品質,下流解析における有用性の観点から評価した。
論文参考訳（メタデータ） (2022-11-17T01:14:19Z)
Contrastive Self-supervised Sequential Recommendation with Robust Augmentation [101.25762166231904]
Sequential Recommendation Describes a set of technique to model dynamic user behavior to order to predict future interaction in sequence user data。データスパーシリティやノイズの多いデータなど、古くて新しい問題はまだ残っている。逐次レコメンデーション(CoSeRec)のためのコントラスト型自己監督学習を提案する。
論文参考訳（メタデータ） (2021-08-14T07:15:25Z)
SYNC: A Copula based Framework for Generating Synthetic Data from Aggregated Sources [8.350531869939351]
ダウンスケーリングと呼ばれる合成データ生成タスクについて検討する。我々はSynC (Synthetic Data Generation via Gaussian Copula) と呼ばれる多段階フレームワークを提案する。私たちはこの仕事に4つの重要な貢献をしています。
論文参考訳（メタデータ） (2020-09-20T16:36:25Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。