論文の概要: Artificial Inductive Bias for Synthetic Tabular Data Generation in Data-Scarce Scenarios
- arxiv url: http://arxiv.org/abs/2407.03080v2
- Date: Thu, 31 Jul 2025 10:15:44 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-01 17:19:07.926554
- Title: Artificial Inductive Bias for Synthetic Tabular Data Generation in Data-Scarce Scenarios
- Title(参考訳): データスカースシナリオにおける人工インダクティブバイアスによる合成語彙データ生成
- Authors: Patricia A. Apellániz, Ana Jiménez, Borja Arroyo Galende, Juan Parras, Santiago Zazo,
- Abstract要約: 人工的帰納バイアスを生成プロセスに統合し,データ品質を向上させる手法を提案する。
我々は、事前学習、モデル平均化、モデル非依存メタラーニング(MAML)、ドメイン探索(DRS)の4つのアプローチを評価し、生成したテキストの品質への影響を分析する。
実験結果から,帰納的バイアスを取り入れることで,メタラーニングよりも優れた伝達学習法が実現された。
- 参考スコア(独自算出の注目度): 8.062368743143388
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: While synthetic tabular data generation using Deep Generative Models (DGMs) offers a compelling solution to data scarcity and privacy concerns, their effectiveness relies on the availability of substantial training data, often lacking in real-world scenarios. To overcome this limitation, we propose a novel methodology that explicitly integrates artificial inductive biases into the generative process to improve data quality in low-data regimes. Our framework leverages transfer learning and meta-learning techniques to construct and inject informative inductive biases into DGMs. We evaluate four approaches (pre-training, model averaging, Model-Agnostic Meta-Learning (MAML), and Domain Randomized Search (DRS)) and analyze their impact on the quality of the generated text. Experimental results show that incorporating inductive bias substantially improves performance, with transfer learning methods outperforming meta-learning, achieving up to 60\% gains in Jensen-Shannon divergence. The methodology is model-agnostic and especially relevant in domains such as healthcare and finance, where high-quality synthetic data are essential, and data availability is often limited.
- Abstract(参考訳): Deep Generative Models(DGM)を使用した合成表データ生成は、データの不足とプライバシの懸念に対する説得力のあるソリューションを提供するが、それらの有効性は、現実のシナリオに欠ける、実質的なトレーニングデータの可用性に依存する。
この制限を克服するために、低データ体制におけるデータ品質を改善するために、人工的帰納バイアスを生成プロセスに明示的に統合する手法を提案する。
我々のフレームワークは、伝達学習とメタ学習技術を活用して、情報誘導バイアスをDGMに導入する。
我々は、事前学習、モデル平均化、モデル非依存メタラーニング(MAML)、ドメインランダム検索(DRS)の4つのアプローチを評価し、生成したテキストの品質への影響を分析する。
実験結果から, 帰納的バイアスを取り入れることにより, メタラーニングを向上し, ジェンセン-シャノン分岐において最大60%のゲインを達成できることが示唆された。
この手法は、モデルに依存しないものであり、高品質な合成データが不可欠であり、データの可用性が制限される医療や金融といった分野に特に関係している。
関連論文リスト
- A Comprehensive Survey of Synthetic Tabular Data Generation [27.112327373017457]
タブラルデータ(Tabular data)は、様々な現実世界のアプリケーションにまたがる最も一般的かつ重要なデータフォーマットの1つである。
データ不足、プライバシーの懸念、クラス不均衡といった問題によって制約されることが多い。
合成データ生成は、生成モデルを利用して実際のデータセットの分布を学習する、有望なソリューションとして登場した。
論文 参考訳(メタデータ) (2025-04-23T08:33:34Z) - Beyond the Generative Learning Trilemma: Generative Model Assessment in Data Scarcity Domains [1.2769300783938085]
深層生成モデル(Deep Generative Models, DGM)は、生成学習のトリレムマを満たす合成データを生成する。
現実のシナリオにおけるDGMの適用性を確保する上で重要な要素である、実用性、堅牢性、プライバシを含むように、トライレンマを拡張します。
本研究は、生成学習トリレンマの範囲を広げ、それを現実世界の要求と整合させ、特定のアプリケーションに適したDGMを選択するための実用的なガイダンスを提供する。
論文 参考訳(メタデータ) (2025-04-14T13:15:44Z) - Generate to Discriminate: Expert Routing for Continual Learning [59.71853576559306]
Generate to Discriminate (G2D) は、合成データを利用してドメイン識別器を訓練する連続学習手法である。
我々は、G2Dが視覚と言語の両方におけるタスクにおいて、競争力のあるドメイン・インクリメンタル・ラーニング手法より優れていることを観察する。
論文 参考訳(メタデータ) (2024-12-22T13:16:28Z) - Exploring the Landscape for Generative Sequence Models for Specialized Data Synthesis [0.0]
本稿では, 複雑度の異なる3つの生成モデルを用いて, 悪意ネットワークトラフィックを合成する手法を提案する。
提案手法は,数値データをテキストに変換し,言語モデリングタスクとして再フレーミングする。
提案手法は,高忠実度合成データの生成において,最先端の生成モデルを超えている。
論文 参考訳(メタデータ) (2024-11-04T09:51:10Z) - Differentially Private Tabular Data Synthesis using Large Language Models [6.6376578496141585]
本稿ではDP-LLMTGenについて紹介する。
DP-LLMTGenは、2段階の微調整手順を用いて、センシティブなデータセットをモデル化する。
微調整LDMをサンプリングすることで合成データを生成する。
論文 参考訳(メタデータ) (2024-06-03T15:43:57Z) - A Comprehensive Survey on Data Augmentation [55.355273602421384]
データ拡張(Data augmentation)は、既存のデータサンプルを操作することによって高品質な人工データを生成する技術である。
既存の文献調査では、特定のモダリティデータにのみ焦点が当てられている。
本稿では,異なる共通データモダリティのためのデータ拡張技術を含む,より啓蒙的な分類法を提案する。
論文 参考訳(メタデータ) (2024-05-15T11:58:08Z) - Generative AI for Synthetic Data Generation: Methods, Challenges and the
Future [12.506811635026907]
大規模言語モデル(LLM)から合成データを生成する研究の最近の動向
本稿では,タスク固有トレーニングデータの生成にこれらの巨大なLCMを活用する高度な技術について述べる。
論文 参考訳(メタデータ) (2024-03-07T03:38:44Z) - Synthetic location trajectory generation using categorical diffusion
models [50.809683239937584]
拡散モデル(DPM)は急速に進化し、合成データのシミュレーションにおける主要な生成モデルの一つとなっている。
本稿では,個人が訪れた物理的位置を表す変数列である合成個別位置軌跡(ILT)の生成にDPMを用いることを提案する。
論文 参考訳(メタデータ) (2024-02-19T15:57:39Z) - Reimagining Synthetic Tabular Data Generation through Data-Centric AI: A
Comprehensive Benchmark [56.8042116967334]
合成データは、機械学習モデルのトレーニングの代替となる。
合成データが現実世界データの複雑なニュアンスを反映することを保証することは、難しい作業です。
本稿では,データ中心型AI技術の統合による合成データ生成プロセスのガイドの可能性について検討する。
論文 参考訳(メタデータ) (2023-10-25T20:32:02Z) - DP-TBART: A Transformer-based Autoregressive Model for Differentially
Private Tabular Data Generation [1.4418363806859886]
差分プライバシーを維持する変圧器をベースとした自己回帰モデルであるDP-TBART(Darientially-Private TaBular AutoRegressive Transformer)を提案する。
我々は、限界に基づくアプローチの限界を理解するための理論的枠組みを提供し、深層学習に基づくアプローチが最も貢献する場を提供する。
論文 参考訳(メタデータ) (2023-07-19T19:40:21Z) - TSGM: A Flexible Framework for Generative Modeling of Synthetic Time Series [61.436361263605114]
時系列データは、研究者と産業組織間のデータの共有を妨げるため、しばしば不足または非常に敏感である。
本稿では,合成時系列の生成モデリングのためのオープンソースフレームワークである時系列生成モデリング(TSGM)を紹介する。
論文 参考訳(メタデータ) (2023-05-19T10:11:21Z) - FairGen: Fair Synthetic Data Generation [0.3149883354098941]
本稿では,GANアーキテクチャに依存しないより公平な合成データを生成するパイプラインを提案する。
合成データを生成する場合、ほとんどのGANはトレーニングデータに存在するバイアスを増幅するが、これらのバイアスを誘発するサンプルを除去することで、GANは本質的に真の情報的サンプルに重点を置いている、と我々は主張する。
論文 参考訳(メタデータ) (2022-10-24T08:13:47Z) - DEALIO: Data-Efficient Adversarial Learning for Imitation from
Observation [57.358212277226315]
観察ifoからの模倣学習において、学習エージェントは、実演者の生成した制御信号にアクセスせずに、実演行動の観察のみを用いて実演エージェントを模倣しようとする。
近年、逆模倣学習に基づく手法は、ifO問題に対する最先端のパフォーマンスをもたらすが、データ非効率でモデルなしの強化学習アルゴリズムに依存するため、サンプルの複雑さに悩まされることが多い。
この問題は、サンプルの収集が時間、エネルギー、およびリスクの面で高いコストを被る可能性がある現実世界の設定に展開することは非現実的です。
よりデータ効率の高いifOアルゴリズムを提案する。
論文 参考訳(メタデータ) (2021-03-31T23:46:32Z) - GS-WGAN: A Gradient-Sanitized Approach for Learning Differentially
Private Generators [74.16405337436213]
我々は、GS-WGAN(Gradient-sanitized Wasserstein Generative Adrial Networks)を提案する。
GS-WGANは、厳格なプライバシー保証を備えた機密データの衛生的な形式での公開を可能にする。
このアプローチは、複数のメトリクスにわたる最先端のアプローチよりも一貫して優れています。
論文 参考訳(メタデータ) (2020-06-15T10:01:01Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。