論文の概要: Rule-adhering synthetic data -- the lingua franca of learning
- arxiv url: http://arxiv.org/abs/2209.06679v1
- Date: Mon, 12 Sep 2022 20:01:13 GMT
- ステータス: 処理完了
- システム内更新日: 2022-09-15 13:43:32.740213
- Title: Rule-adhering synthetic data -- the lingua franca of learning
- Title(参考訳): 規則順守型合成データ-学習の言語フランカ
- Authors: Michael Platzer and Ivona Krchova
- Abstract要約: 本研究では、ドメインの専門知識をデータ合成に組み込むアプローチについて検討する。
生成した合成データジェネレータは、任意の種類の新しいサンプルに対してプローブすることができる。
我々は、公開データセットの概念を実証し、その利点を記述的分析と下流MLモデルを用いて評価する。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: AI-generated synthetic data allows to distill the general patterns of
existing data, that can then be shared safely as granular-level representative,
yet novel data samples within the original semantics. In this work we explore
approaches of incorporating domain expertise into the data synthesis, to have
the statistical properties as well as pre-existing domain knowledge of rules be
represented. The resulting synthetic data generator, that can be probed for any
number of new samples, can then serve as a common source of intelligence, as a
lingua franca of learning, consumable by humans and machines alike. We
demonstrate the concept for a publicly available data set, and evaluate its
benefits via descriptive analysis as well as a downstream ML model.
- Abstract(参考訳): AIが生成した合成データは、既存のデータの一般的なパターンを抽出し、粒度レベルの代表として安全に共有する。
本研究では、データ合成にドメインの専門知識を取り入れ、その統計的性質と、既存のルールのドメイン知識を表現するためのアプローチを検討する。
得られた合成データ生成装置は、新しいサンプルを何個でも探すことができ、人間や機械が消費する学習のラングアフランカとして、共通のインテリジェンス源として機能する。
我々は,公開データセットの概念を実証し,その利点を記述論的解析と下流mlモデルを用いて評価する。
関連論文リスト
- Artificial Data, Real Insights: Evaluating Opportunities and Risks of Expanding the Data Ecosystem with Synthetic Data [0.0]
Synthetic Dataは新しいものではないが、Generative AIの最近の進歩は、研究ツールボックスの拡張への関心を高めている。
この記事では、Synthetic Dataドメインの全範囲を分類します。
論文 参考訳(メタデータ) (2024-08-10T16:46:35Z) - Preserving correlations: A statistical method for generating synthetic
data [0.0]
本稿では,統計的に代表される合成データを生成する手法を提案する。
主なゴールは、元のデータセットに存在する特徴の相関関係を合成データセットで維持できるようにすることである。
本稿では,本アルゴリズムを原データセットの解析と合成データ点の生成に用いたアルゴリズムについて詳述する。
論文 参考訳(メタデータ) (2024-03-03T10:35:46Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Synthetic data generation for a longitudinal cohort study -- Evaluation,
method extension and reproduction of published data analysis results [0.32593385688760446]
医療分野では、プライバシー上の懸念から個人レベルのデータへのアクセスは困難であることが多い。
有望な代替手段は、完全な合成データの生成である。
本研究では,最先端の合成データ生成手法を用いる。
論文 参考訳(メタデータ) (2023-05-12T13:13:55Z) - Beyond Privacy: Navigating the Opportunities and Challenges of Synthetic
Data [91.52783572568214]
合成データは、機械学習の世界において支配的な力となり、データセットを個々のニーズに合わせて調整できる未来を約束する。
合成データのより広範な妥当性と適用のために,コミュニティが克服すべき根本的な課題について論じる。
論文 参考訳(メタデータ) (2023-04-07T16:38:40Z) - Representative & Fair Synthetic Data [68.8204255655161]
公平性制約を自己監督学習プロセスに組み込むためのフレームワークを提示する。
私たちはuci成人国勢調査データセットの代表者および公正版を作成します。
我々は、代表的かつ公正な合成データを将来有望なビルディングブロックとみなし、歴史的世界ではなく、私たちが生きようとしている世界についてアルゴリズムを教える。
論文 参考訳(メタデータ) (2021-04-07T09:19:46Z) - Improving Text Relationship Modeling with Artificial Data [0.07614628596146598]
本稿では,デジタル図書館における関係分類への合成データアプローチの適用と評価を行う。
本書間の全部分関係の分類において、合成データはディープニューラルネットワーク分類器を91%改善することがわかった。
論文 参考訳(メタデータ) (2020-10-27T22:04:54Z) - Partially Conditioned Generative Adversarial Networks [75.08725392017698]
Generative Adversarial Networks (GAN)は、実世界のトレーニングデータセットの基盤となる確率分布を暗黙的にモデル化することで、人工データセットを合成する。
条件付きGANとその変種の導入により、これらの手法はデータセット内の各サンプルで利用可能な補助情報に基づいて条件付きサンプルを生成するように拡張された。
本研究では,標準条件付きGANがそのようなタスクに適さないことを論じ,新たなAdversarial Networkアーキテクチャとトレーニング戦略を提案する。
論文 参考訳(メタデータ) (2020-07-06T15:59:28Z) - Assembling Semantically-Disentangled Representations for
Predictive-Generative Models via Adaptation from Synthetic Domain [32.42156485883356]
物理ベースエンジンの助けを借りて意味的に整合した表現を生成可能であることを示す。
提案手法は,実際のデータラベルに依存することなく,人間の顔特性の条件生成モデルを構築することができる。
論文 参考訳(メタデータ) (2020-02-23T03:35:45Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。