論文の概要: ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning
- arxiv url: http://arxiv.org/abs/2603.10823v1
- Date: Wed, 11 Mar 2026 14:31:07 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-12 16:22:32.997424
- Title: ReTabSyn: Realistic Tabular Data Synthesis via Reinforcement Learning
- Title(参考訳): ReTabSyn:強化学習によるリアルな語彙データ合成
- Authors: Xiaofeng Lin, Seungbae Kim, Zhuoya Li, Zachary DeSoto, Charles Fleming, Guang Cheng,
- Abstract要約: 深層生成モデルは、合成トレーニングデータを生成することによって、データの不足とプライバシに役立ちます。
データ効率を高めるためには、モデルが条件付き分布の学習を優先すべきである。
このアプローチを使って言語モデルベースのジェネレータを実証的に微調整し、小さなサンプルサイズ、クラス不均衡、分散シフトのベンチマークで、ReTabSynは一貫して最先端のベースラインを上回っています。
- 参考スコア(独自算出の注目度): 13.307228241887346
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Deep generative models can help with data scarcity and privacy by producing synthetic training data, but they struggle in low-data, imbalanced tabular settings to fully learn the complex data distribution. We argue that striving for the full joint distribution could be overkill; for greater data efficiency, models should prioritize learning the conditional distribution $P(y\mid \bm{X})$, as suggested by recent theoretical analysis. Therefore, we overcome this limitation with \textbf{ReTabSyn}, a \textbf{Re}inforced \textbf{Tab}ular \textbf{Syn}thesis pipeline that provides direct feedback on feature correlation preservation during synthesizer training. This objective encourages the generator to prioritize the most useful predictive signals when training data is limited, thereby strengthening downstream model utility. We empirically fine-tune a language model-based generator using this approach, and across benchmarks with small sample sizes, class imbalance, and distribution shift, ReTabSyn consistently outperforms state-of-the-art baselines. Moreover, our approach can be readily extended to control various aspects of synthetic tabular data, such as applying expert-specified constraints on generated observations.
- Abstract(参考訳): 深層生成モデルは、合成トレーニングデータを生成することによってデータの不足とプライバシに役立ちますが、複雑なデータ分散を完全に学習するために、低データで不均衡な表の設定に苦労しています。
データ効率を高めるために、モデルは最近の理論分析で示唆されているように、条件分布$P(y\mid \bm{X})$の学習を優先すべきである。
したがって、この制限を、シンセサイザートレーニング中に特徴相関保存を直接フィードバックする、 \textbf{Re} inforced \textbf{Tab}ular \textbf{Syn}thesis Pipelineで克服する。
この目的は、トレーニングデータに制限がある場合に、ジェネレータが最も有用な予測信号の優先順位を付けることを奨励し、それによって下流モデルの有用性が強化される。
このアプローチを使って言語モデルベースのジェネレータを実証的に微調整し、小さなサンプルサイズ、クラス不均衡、分散シフトのベンチマークで、ReTabSynは一貫して最先端のベースラインを上回っています。
さらに,本手法は,生成した観測に専門家指定制約を適用するなど,合成表データの様々な側面を制御するために容易に拡張できる。
関連論文リスト
- Flow Matching for Tabular Data Synthesis [6.009900118732673]
フローマッチングは、プライバシを保存するデータ共有のための重要なツールである。
本稿では,流れのマッチングを最先端拡散法と比較する。
フローマッチング、特にTabbyFlowは拡散ベースラインよりも優れています。
論文 参考訳(メタデータ) (2025-11-30T02:18:04Z) - A Technical Exploration of Causal Inference with Hybrid LLM Synthetic Data [3.121656940390038]
大規模言語モデル(LLM)は、合成データを生成する柔軟な手段を提供する。
既存のアプローチでは、平均処理効果(ATE)のような主要な因果パラメータを保存できない場合が多い。
論文 参考訳(メタデータ) (2025-10-31T23:34:44Z) - Valid Inference with Imperfect Synthetic Data [39.10587411316875]
モーメントの一般化法に基づく新しい推定器を提案する。
合成データのモーメント残差と実データのモーメント間の相互作用は、対象パラメータの推定を大幅に改善できることがわかった。
論文 参考訳(メタデータ) (2025-08-08T18:32:52Z) - SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - SampleLLM: Optimizing Tabular Data Synthesis in Recommendations [46.689486044254544]
タブラルデータ合成は機械学習において重要であるが、既存の一般的な手法は非常にデータに依存しており、レコメンデータシステムでは不足することが多い。
この制限は、複雑な分布を捉え、スパースデータと限定データから特徴関係を理解するのが困難であることから生じる。
そこで本研究では,LLMに基づくデータ合成の品質向上を目的とした,SampleLLMという2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-27T15:12:27Z) - FedTabDiff: Federated Learning of Diffusion Probabilistic Models for
Synthetic Mixed-Type Tabular Data Generation [5.824064631226058]
textitFederated Tabular Diffusion (FedTabDiff) を導入し、元のデータセットに一元的にアクセスすることなく、高忠実な混合型表型データを生成する。
FedTabDiffは、データプライバシとローカリティを尊重しながら、複数のエンティティが共同で生成モデルをトレーニングできるようにする分散学習方式を実現する。
実世界の金融および医療データセットに関する実験的評価は、高い忠実性、ユーティリティ、プライバシ、カバレッジを維持する合成データを生成するフレームワークの能力を実証している。
論文 参考訳(メタデータ) (2024-01-11T21:17:50Z) - From Fake to Real: Pretraining on Balanced Synthetic Images to Prevent Spurious Correlations in Image Recognition [64.59093444558549]
我々はFrom Fake to Realと呼ぶシンプルで簡単に実装できる2段階のトレーニングパイプラインを提案する。
実データと合成データを別々にトレーニングすることで、FFRは実データと合成データの統計的差異にモデルを公開しない。
実験の結果,FFRは3つのデータセットに対して,最先端のグループ精度を最大20%向上させることがわかった。
論文 参考訳(メタデータ) (2023-08-08T19:52:28Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。