論文の概要: Memisis: Orchestrating and Evaluating Synthetic Data for Tabular Health Datasets
- arxiv url: http://arxiv.org/abs/2605.17758v1
- Date: Mon, 18 May 2026 02:24:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:48.594289
- Title: Memisis: Orchestrating and Evaluating Synthetic Data for Tabular Health Datasets
- Title(参考訳): Memisis: タブラルヘルスデータセットのための合成データのオーケストレーションと評価
- Authors: Nitish Nagesh, Mahdi Bagheri, Arshia Harish Puthran, Pengbao Zhou, Muhjaazee Love, Aadi Sharma, Ian Harris, Amir M. Rahmani,
- Abstract要約: 合成データのオーケストレーションと評価を行うツールであるMemisisを紹介する。
私たちのツールは、データ生成、検証、評価のための統合ワークフローを作成します。
- 参考スコア(独自算出の注目度): 1.2089037589460674
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Synthetic data is widely used in healthcare to create datasets that are similar to original data but without the privacy concerns. Generating and evaluating synthetic data across privacy, utility and fairness is crucial for facilitating high quality data availability for downstream prediction tasks and clinical decision making. We present Memisis, a tool that orchestrates and evaluates synthetic data by leveraging existing synthetic data tools, the power of large language models and state-of-the-art evaluation metrics. Our tool creates a unified workflow for data generation, validation and evaluation. Users have control over the training size, training epochs and the number of synthetic rows to sample. Instead of knobs to tune synthetic data, the interactive agent allows users to specify their synthetic data generation goals and the tool will orchestrate the workflow by leveraging existing tools while performing the requisite evaluation. For the demo, we use an open source schizophrenia dataset with protected attributes related to race and gender, three different synthesizers and a local language model to orchestrate the workflow. We observe that CTGAN, TVAE and GaussianCopula have comparable performance across fairness and utility metrics. The workflow allows users flexibility and control over the data generation and evaluation process.
- Abstract(参考訳): 合成データは、オリジナルのデータに似ているがプライバシーの懸念がないデータセットを作成するために、医療で広く利用されている。
プライバシ、ユーティリティ、公正性を越えて合成データを生成し評価することは、下流の予測タスクと臨床的意思決定のための高品質なデータ提供を容易にするために不可欠である。
本稿では,既存の合成データツール,大規模言語モデルのパワー,最先端評価指標を活用することで,合成データのオーケストレーションと評価を行うツールであるMemisisを紹介する。
私たちのツールは、データ生成、検証、評価のための統合ワークフローを作成します。
ユーザは、トレーニングのサイズ、エポックのトレーニング、サンプルの合成行数をコントロールすることができる。
対話型エージェントは、合成データをチューニングするノブの代わりに、ユーザが合成データ生成目標を指定できるようにし、既存のツールを活用して必要な評価を行いながらワークフローを編成する。
デモでは、人種と性別に関する保護された属性を備えたオープンソースの統合失調症データセット、3つの異なるシンセサイザーとローカル言語モデルを使用してワークフローをオーケストレーションする。
我々は,CTGAN,TVAE,GaussianCopulaが公平性および実用性指標に比較して高い性能を示した。
このワークフローは、データ生成と評価プロセスの柔軟性と制御を可能にする。
関連論文リスト
- Generate, Evaluate, Iterate: Synthetic Data for Human-in-the-Loop Refinement of LLM Judges [11.924947088975722]
合成データ生成をLLM-as-a-judgeワークフローに統合するツールを提案する。
ドメイン、ペルソナ、長さ、望ましい結果(境界ケースを含む)で、カスタマイズされた、挑戦的なテストケースを作成することができる。
生成した合成データは, 評価基準の精細化と人間の嗜好の整合性を両立させるために手作りデータとして有効であることが証明された。
論文 参考訳(メタデータ) (2025-11-06T15:57:19Z) - Procedural Environment Generation for Tool-Use Agents [55.10427063893754]
我々はRandomWorldを紹介した。これは対話型ツールと合成ツール利用データの手続き的生成のためのパイプラインである。
我々は,SFTとRLによるRandomWorldの合成データによるモデル調整により,様々なツール使用ベンチマークが改良されたことを示す。
論文 参考訳(メタデータ) (2025-05-21T14:10:06Z) - SynthEval: A Framework for Detailed Utility and Privacy Evaluation of Tabular Synthetic Data [3.360001542033098]
SynthEvalは、合成データのための新しいオープンソース評価フレームワークである。
特別な種類の前処理ステップを仮定することなく、分類的および数値的な属性を同等のケアで扱う。
我々のツールは統計的および機械学習技術を利用して、合成データの忠実度とプライバシー保護の整合性を包括的に評価する。
論文 参考訳(メタデータ) (2024-04-24T11:49:09Z) - A Multi-Faceted Evaluation Framework for Assessing Synthetic Data Generated by Large Language Models [3.672850225066168]
生成AIと大規模言語モデル(LLM)は、合成データを生成するための新たな道を開いた。
潜在的なメリットにもかかわらず、プライバシー漏洩に関する懸念が浮上している。
我々は,合成表データの忠実さ,有用性,およびプライバシー保護を評価するために設計されたオープンソースの評価フレームワークであるSynEvalを紹介する。
論文 参考訳(メタデータ) (2024-04-20T08:08:28Z) - Reliability in Semantic Segmentation: Can We Use Synthetic Data? [69.28268603137546]
セマンティックセグメンテーションモデルの現実的信頼性を総合的に評価するために、合成データを具体的に生成する方法を初めて示す。
この合成データは、事前訓練されたセグメンタの堅牢性を評価するために使用される。
セグメンタのキャリブレーションとOOD検出能力を向上するために,我々のアプローチをどのように活用できるかを実証する。
論文 参考訳(メタデータ) (2023-12-14T18:56:07Z) - Assessment of Differentially Private Synthetic Data for Utility and
Fairness in End-to-End Machine Learning Pipelines for Tabular Data [3.555830838738963]
差分プライベート(DP)合成データセットは、個々のデータプロバイダのプライバシを保持しながらデータを共有するためのソリューションである。
機械学習モデルの訓練と評価に最も効果的な合成データ生成手法を同定する。
論文 参考訳(メタデータ) (2023-10-30T03:37:16Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。