論文の概要: Synthcity: facilitating innovative use cases of synthetic data in
different data modalities
- arxiv url: http://arxiv.org/abs/2301.07573v1
- Date: Wed, 18 Jan 2023 14:49:54 GMT
- ステータス: 処理完了
- システム内更新日: 2023-01-19 15:32:14.977966
- Title: Synthcity: facilitating innovative use cases of synthetic data in
different data modalities
- Title(参考訳): Synthcity: 異なるデータモダリティにおける合成データの革新的利用を促進する
- Authors: Zhaozhi Qian, Bogdan-Constantin Cebere, Mihaela van der Schaar
- Abstract要約: Synthcityは、MLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのための、オープンソースのソフトウェアパッケージである。
Synthcityは、実践者に対して、合成データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
- 参考スコア(独自算出の注目度): 86.52703093858631
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthcity is an open-source software package for innovative use cases of
synthetic data in ML fairness, privacy and augmentation across diverse tabular
data modalities, including static data, regular and irregular time series, data
with censoring, multi-source data, composite data, and more. Synthcity provides
the practitioners with a single access point to cutting edge research and tools
in synthetic data. It also offers the community a playground for rapid
experimentation and prototyping, a one-stop-shop for SOTA benchmarks, and an
opportunity for extending research impact. The library can be accessed on
GitHub (https://github.com/vanderschaarlab/synthcity) and pip
(https://pypi.org/project/synthcity/). We warmly invite the community to join
the development effort by providing feedback, reporting bugs, and contributing
code.
- Abstract(参考訳): Synthcityは、静的データ、正規および不規則な時系列、検閲付きデータ、マルチソースデータ、複合データなど、さまざまな表データモダリティにまたがるMLフェアネス、プライバシ、拡張における合成データの革新的なユースケースのためのオープンソースソフトウェアパッケージである。
Synthcityは、人工データにおける最先端の研究とツールへの単一のアクセスポイントを提供する。
また、コミュニティに迅速な実験とプロトタイピングの場、SOTAベンチマークのワンストップショップ、そして研究効果を拡大する機会を提供する。
ライブラリはgithub(https://github.com/vanderschaarlab/synthcity)とpip(https://pypi.org/project/synthcity/)からアクセスできる。
フィードバックを提供し、バグを報告し、コードをコントリビュートすることで、コミュニティを温かく開発活動に参加させます。
関連論文リスト
- Little Giants: Synthesizing High-Quality Embedding Data at Scale [71.352883755806]
SPEEDは,オープンソースの小型モデルと協調して大規模な埋め込みデータを効率的に生成するフレームワークである。
SPEEDはGPT API呼び出しの1/10未満しか使用せず、両者が合成データのみに基づいてトレーニングされている場合、最先端の埋め込みモデルE5_mistralよりも優れている。
論文 参考訳(メタデータ) (2024-10-24T10:47:30Z) - Diversity-Driven Synthesis: Enhancing Dataset Distillation through Directed Weight Adjustment [39.137060714048175]
多様性の向上は、データセットを合成するための並列化可能であるが孤立したアプローチを改善することができる、と我々は主張する。
本稿では,動的かつ指向的な重み調整技術を用いて合成過程を変調する新しい手法を提案する。
提案手法は,合成データの各バッチが,元のデータセットの大規模かつ多様なサブセットの特徴を反映していることを保証する。
論文 参考訳(メタデータ) (2024-09-26T08:03:19Z) - Trading Off Scalability, Privacy, and Performance in Data Synthesis [11.698554876505446]
a) Howsoエンジンを導入し、(b)ランダムプロジェクションに基づく合成データ生成フレームワークを提案する。
Howsoエンジンが生成する合成データは、プライバシーと正確性に優れており、その結果、総合的なスコアが最高の結果となる。
提案するランダム・プロジェクション・ベース・フレームワークは,高い精度で合成データを生成することができ,スケーラビリティが最速である。
論文 参考訳(メタデータ) (2023-12-09T02:04:25Z) - On the Usefulness of Synthetic Tabular Data Generation [3.04585143845864]
合成データは、データ交換と強化機械学習(ML)トレーニングの両方に使用できると一般的に信じられている。
プライバシを保存する合成データ生成は、下流タスクのデータ交換を加速するが、なぜ合成データがMLトレーニングを促進するのかを示す十分な証拠はない。
論文 参考訳(メタデータ) (2023-06-27T17:26:23Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - TRoVE: Transforming Road Scene Datasets into Photorealistic Virtual
Environments [84.6017003787244]
本研究では、シミュレーションデータセットに存在する困難とドメインギャップに対処する合成データ生成パイプラインを提案する。
既存のデータセットからアノテーションや視覚的手がかりを利用すれば、自動マルチモーダルデータ生成が容易になることを示す。
論文 参考訳(メタデータ) (2022-08-16T20:46:08Z) - TabSynDex: A Universal Metric for Robust Evaluation of Synthetic Tabular Data [14.900342838726747]
合成データのロバストな評価のための新しい普遍計量TabSynDexを提案する。
シングルスコアメトリックであるTabSynDexは、ニューラルネットワークベースのアプローチのトレーニングを観察および評価するためにも使用できる。
論文 参考訳(メタデータ) (2022-07-12T04:08:11Z) - FedSyn: Synthetic Data Generation using Federated Learning [0.0]
現在の機械学習のプラクティスは、既存のデータセットから合成データを生成するために利用することができる。
データプライバシは、一部の機関が満足できないかもしれないことを懸念している。
本稿では,合成データを生成する新しい手法であるFedSynを提案する。
論文 参考訳(メタデータ) (2022-03-11T14:05:37Z) - Shape of synth to come: Why we should use synthetic data for English
surface realization [72.62356061765976]
2018年の共有タスクでは、追加で合成されたデータを使用してトレーニングされたシステムの絶対的なパフォーマンスにはほとんど差がなかった。
我々は、2018年の英語データセットの実験において、合成データの使用はかなりの効果があることを示した。
我々は、こうしたデータを活用するシステムについて、今後の研究努力が引き続き探求されるよう、禁止されるのではなく、その使用を奨励すべきであると主張している。
論文 参考訳(メタデータ) (2020-05-06T10:00:55Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。