論文の概要: Permissioned Blockchain-based Framework for Ranking Synthetic Data Generators
- arxiv url: http://arxiv.org/abs/2405.07196v1
- Date: Sun, 12 May 2024 07:46:00 GMT
- ステータス: 処理完了
- システム内更新日: 2024-05-14 17:57:54.703137
- Title: Permissioned Blockchain-based Framework for Ranking Synthetic Data Generators
- Title(参考訳): 合成データジェネレータのランク付けを許可されたブロックチェーンベースのフレームワーク
- Authors: Narasimha Raghavan Veeraragavan, Mohammad Hossein Tabatabaei, Severin Elvatun, Vibeke Binz Vallevik, Siri Larønningen, Jan F Nygård,
- Abstract要約: 我々は、Sawtoothと呼ばれる認可されたブロックチェーンフレームワーク内で、提案するランキングアルゴリズムをスマートコントラクトとして実装する、新しいアプローチを導入する。
本フレームワークは, 望ましくない特性と望ましくない特性の両方を考慮した, 微妙なランキングを提供することの有効性を実証する。
- 参考スコア(独自算出の注目度): 0.5541644538483947
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Synthetic data generation is increasingly recognized as a crucial solution to address data related challenges such as scarcity, bias, and privacy concerns. As synthetic data proliferates, the need for a robust evaluation framework to select a synthetic data generator becomes more pressing given the variety of options available. In this research study, we investigate two primary questions: 1) How can we select the most suitable synthetic data generator from a set of options for a specific purpose? 2) How can we make the selection process more transparent, accountable, and auditable? To address these questions, we introduce a novel approach in which the proposed ranking algorithm is implemented as a smart contract within a permissioned blockchain framework called Sawtooth. Through comprehensive experiments and comparisons with state-of-the-art baseline ranking solutions, our framework demonstrates its effectiveness in providing nuanced rankings that consider both desirable and undesirable properties. Furthermore, our framework serves as a valuable tool for selecting the optimal synthetic data generators for specific needs while ensuring compliance with data protection principles.
- Abstract(参考訳): 合成データ生成は、不足、バイアス、プライバシといったデータ関連の課題に対処するための重要なソリューションとして、ますます認識されている。
合成データの増加に伴い、利用可能なさまざまなオプションを考えると、合成データジェネレータを選択するための堅牢な評価フレームワークの必要性が高まっている。
本研究では,2つの質問について検討する。
1) 特定の目的のための選択肢の集合から最適な合成データ生成装置をどうやって選択できるのか。
2) 選択プロセスをより透明に、説明責任を持ち、監査可能にするにはどうすればよいのか?
これらの問題に対処するために、Sawtoothと呼ばれる認可されたブロックチェーンフレームワーク内で、提案されたランキングアルゴリズムをスマートコントラクトとして実装する、新たなアプローチを導入する。
本フレームワークは,最先端のベースラインランキングソリューションとの総合的な実験と比較を通じて,望ましくない特性と望ましくない特性の両方を考慮したランキングを提供する上で,その有効性を示す。
さらに,本フレームワークは,データ保護原則の遵守を確保しつつ,特定のニーズに対して最適な合成データジェネレータを選択するための貴重なツールとして機能する。
関連論文リスト
- Data Generation via Latent Factor Simulation for Fairness-aware Re-ranking [11.133319460036082]
合成データはアルゴリズム研究に有用な資源である。
フェアネスを意識したリコメンデーションのための新しいタイプのデータ: 合成レコメンデーションシステム出力を提案する。
論文 参考訳(メタデータ) (2024-09-21T09:13:50Z) - Mitigating the Privacy Issues in Retrieval-Augmented Generation (RAG) via Pure Synthetic Data [51.41288763521186]
Retrieval-augmented Generation (RAG)は、外部知識ソースから取得した関連情報を統合することにより、言語モデルの出力を強化する。
RAGシステムは、プライベートデータを取得する際に深刻なプライバシーリスクに直面する可能性がある。
検索データに対するプライバシー保護の代替として,合成データを用いる方法を提案する。
論文 参考訳(メタデータ) (2024-06-20T22:53:09Z) - Best Practices and Lessons Learned on Synthetic Data [83.63271573197026]
AIモデルの成功は、大規模で多様な、高品質なデータセットの可用性に依存している。
合成データは、現実世界のパターンを模倣する人工データを生成することによって、有望なソリューションとして現れてきた。
論文 参考訳(メタデータ) (2024-04-11T06:34:17Z) - Benchmarking Private Population Data Release Mechanisms: Synthetic Data vs. TopDown [50.40020716418472]
本研究では、TopDownアルゴリズムとプライベート合成データ生成を比較し、クエリの複雑さによる精度への影響を判定する。
この結果から,TopDownアルゴリズムは,分散クエリに対して,評価したどの合成データ手法よりもはるかに優れたプライバシー-忠実トレードオフを実現することがわかった。
論文 参考訳(メタデータ) (2024-01-31T17:38:34Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - A supervised generative optimization approach for tabular data [2.5311562666866494]
本研究は,新しい合成データ生成フレームワークを提案する。
特定の下流タスクに適した教師ありコンポーネントを統合し、メタラーニングアプローチを用いて既存の合成分布の最適混合分布を学習する。
論文 参考訳(メタデータ) (2023-09-10T16:56:46Z) - Post-processing Private Synthetic Data for Improving Utility on Selected
Measures [7.371282202708775]
本稿では,エンドユーザが選択した尺度に関して,合成データの有用性を向上するポストプロセッシング手法を提案する。
我々のアプローチは、複数のベンチマークデータセットと最先端の合成データ生成アルゴリズムにまたがる合成データの有用性を一貫して改善する。
論文 参考訳(メタデータ) (2023-05-24T19:49:50Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Enabling Synthetic Data adoption in regulated domains [1.9512796489908306]
Model-CentricからData-Centricへの転換は、アルゴリズムよりもデータとその品質に重点を置いている。
特に、高度に規制されたシナリオにおける情報のセンシティブな性質を考慮する必要がある。
このようなコンウンドラムをバイパスする巧妙な方法は、生成プロセスから得られたデータであるSynthetic Dataに依存し、実際のデータプロパティを学習する。
論文 参考訳(メタデータ) (2022-04-13T10:53:54Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。