論文の概要: Democratizing Tabular Data Access with an Open$\unicode{x2013}$Source Synthetic$\unicode{x2013}$Data SDK
- arxiv url: http://arxiv.org/abs/2508.00718v1
- Date: Fri, 01 Aug 2025 15:36:59 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-04 18:08:53.936782
- Title: Democratizing Tabular Data Access with an Open$\unicode{x2013}$Source Synthetic$\unicode{x2013}$Data SDK
- Title(参考訳): Open$\unicode{x2013}$Source Synthetic$\unicode{x2013}$Data SDKによるタブラルデータアクセスの民主化
- Authors: Ivona Krchova, Mariana Vargas Vieyra, Mario Scriminaci, Andrey Sidorenko,
- Abstract要約: 本稿では,高品質なデータを合成するためのオープンソースツールキットMOSTLY AI Synthetic Data Software Development Kit(SDK)を提案する。
SDKは、差分プライバシー保証、公正性を認識したデータ生成、自動品質保証などの堅牢な機能を、フレキシブルでアクセシブルなPythonインターフェースに統合する。
SDKは急速に採用され、現実世界のデータボトルネックに対処し、広範なデータの民主化を促進する実用性を強調している。
- 参考スコア(独自算出の注目度): 0.4874819476581695
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine learning development critically depends on access to high-quality data. However, increasing restrictions due to privacy, proprietary interests, and ethical concerns have created significant barriers to data accessibility. Synthetic data offers a viable solution by enabling safe, broad data usage without compromising sensitive information. This paper presents the MOSTLY AI Synthetic Data Software Development Kit (SDK), an open-source toolkit designed specifically for synthesizing high-quality tabular data. The SDK integrates robust features such as differential privacy guarantees, fairness-aware data generation, and automated quality assurance into a flexible and accessible Python interface. Leveraging the TabularARGN autoregressive framework, the SDK supports diverse data types and complex multi-table and sequential datasets, delivering competitive performance with notable improvements in speed and usability. Currently deployed both as a cloud service and locally installable software, the SDK has seen rapid adoption, highlighting its practicality in addressing real-world data bottlenecks and promoting widespread data democratization.
- Abstract(参考訳): 機械学習の開発は、高品質のデータへのアクセスに大きく依存する。
しかし、プライバシやプロプライエタリな関心事、倫理上の懸念などによる制限の増大は、データアクセシビリティに重大な障壁をもたらしている。
センシティブな情報を妥協することなく、安全で広範なデータ使用を可能にすることによって、合成データは実行可能なソリューションを提供する。
本稿では,高品質な表データの合成に特化したオープンソースツールキットMOSTLY AI Synthetic Data Software Development Kit(SDK)を提案する。
SDKは、差分プライバシー保証、公正性を認識したデータ生成、自動品質保証などの堅牢な機能を、フレキシブルでアクセシブルなPythonインターフェースに統合する。
TabularARGN自動回帰フレームワークを活用することで、SDKはさまざまなデータタイプと複雑なマルチテーブルおよびシーケンシャルデータセットをサポートし、スピードとユーザビリティを顕著に向上した競合的なパフォーマンスを提供する。
現在、クラウドサービスとローカルにインストール可能なソフトウェアとしてデプロイされているSDKは、急速に採用され、現実のデータボトルネックに対処し、広範なデータの民主化を促進する実用性を強調している。
関連論文リスト
- TabularARGN: A Flexible and Efficient Auto-Regressive Framework for Generating High-Fidelity Synthetic Data [0.42881773214459123]
Tabular Auto-Regressive Generative Network (TabularARGN)は、混合型、多変量、シーケンシャルデータセットを扱う柔軟なフレームワークである。
あらゆる可能な条件付き確率のトレーニングにより、TabularARGNは、カラムの任意のサブセット上で、公平性を認識した生成、計算、条件付き生成などの高度な特徴をサポートする。
論文 参考訳(メタデータ) (2025-01-21T10:06:19Z) - Data-Juicer 2.0: Cloud-Scale Adaptive Data Processing for and with Foundation Models [64.28420991770382]
Data-Juicer 2.0は、テキスト、画像、ビデオ、オーディオのモダリティにまたがるデータ処理オペレーターがバックアップするデータ処理システムである。
データ分析、アノテーション、基礎モデルポストトレーニングなど、より重要なタスクをサポートする。
さまざまな研究分野やAlibaba Cloud PAIのような現実世界の製品で広く採用されている。
論文 参考訳(メタデータ) (2024-12-23T08:29:57Z) - Blockchain Integrated Federated Learning in Edge-Fog-Cloud Systems for IoT based Healthcare Applications A Survey [18.36339203254509]
新たな分散パラダイムであるフェデレーション学習は、プライバシを維持しながら協調学習をサポートする。
フェデレートされた学習とブロックチェーンの統合は、医療などの機密データを扱う上で特に有利である。
本稿では、フェデレートされた学習とブロックチェーンのアーキテクチャ、構造、機能、特性、そして様々なコンピューティングパラダイムにおけるそれらの応用について検討し、医療におけるそれらの実装を評価します。
論文 参考訳(メタデータ) (2024-06-08T16:36:48Z) - OpenDataLab: Empowering General Artificial Intelligence with Open Datasets [53.22840149601411]
本稿では,多様なデータソース間のギャップと統一データ処理の必要性を埋めるプラットフォームであるOpenDataLabを紹介する。
OpenDataLabは、幅広いオープンソースのAIデータセットを統合し、インテリジェントクエリと高速ダウンロードサービスを通じて、データ取得効率を向上させる。
我々は,OpenDataLabが人工知能(AGI)の研究を大幅に促進し,関連するAI分野の進歩を促進することを期待する。
論文 参考訳(メタデータ) (2024-06-04T10:42:01Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Multi-Resolution Diffusion for Privacy-Sensitive Recommender Systems [2.812395851874055]
Score-based Diffusion Recommendation Module (SDRM)を導入し、高精度なレコメンデータシステムのトレーニングに必要な実世界のデータセットの複雑なパターンをキャプチャする。
SDRMは、ユーザのプライバシを保護するために既存のデータセットを置き換える合成データを生成することができる。
提案手法は,Recall@kで平均4.30%,NDCG@kで平均4.65%向上した。
論文 参考訳(メタデータ) (2023-11-06T19:52:55Z) - Decentralised, Scalable and Privacy-Preserving Synthetic Data Generation [8.982917734231165]
我々は、リアルデータのコントリビュータが、微分プライベートな合成データ生成に自律的に参加できる新しいシステムを構築します。
私たちのソリューションは、Solid(Social Linked Data)、MPC(Secure Multi-Party Computation)、Trusted Execution Environments(TEEs)という3つのビルディングブロックに基づいています。
これらの3つの技術が、責任と信頼性のある合成データ生成における様々な課題に効果的に対処できることを示します。
論文 参考訳(メタデータ) (2023-10-30T22:27:32Z) - Synthcity: facilitating innovative use cases of synthetic data in
different data modalities [86.52703093858631]
Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
論文 参考訳(メタデータ) (2023-01-18T14:49:54Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z) - Synthetic Data: Opening the data floodgates to enable faster, more
directed development of machine learning methods [96.92041573661407]
機械学習における画期的な進歩の多くは、大量のリッチデータを利用できることに起因する。
多くの大規模データセットは、医療データなど高度に敏感であり、機械学習コミュニティでは広く利用できない。
プライバシー保証で合成データを生成することは、そのようなソリューションを提供します。
論文 参考訳(メタデータ) (2020-12-08T17:26:10Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。