論文の概要: Inference-Time Refinement Closes the Synthetic-Real Gap in Tabular Diffusion
- arxiv url: http://arxiv.org/abs/2605.06261v1
- Date: Thu, 07 May 2026 13:37:03 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-08 22:27:11.85241
- Title: Inference-Time Refinement Closes the Synthetic-Real Gap in Tabular Diffusion
- Title(参考訳): 推測時間リファインメントは喉頭拡散における合成リールギャップを閉鎖する
- Authors: Eugenio Lomurno, Filippo Balzarini, Francesco Benelle, Francesca Pia Panaccione, Matteo Matteucci,
- Abstract要約: 凍結したトレーニング済みのバックボーン上で動作可能な推論時間改善フレームワークを提案する。
推論時間の改善は、1つのコンシューマグレードのGPU上で1~80分でリアルタイムユーティリティを超えます。
- 参考スコア(独自算出の注目度): 8.745106905496282
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Diffusion-based generators set the current state of the art for synthetic tabular data. These methods approach but rarely exceed real-data utility, and closing this synthetic-real gap has so far been pursued exclusively at training time, via architectural advances, scaling, and retraining of monolithic generators. The inference-time alternative, i.e., refining the outputs of a pre-trained backbone with parameters left untouched, has remained largely unexplored for tabular synthesis. We introduce TARDIS (Tabular generation through Refinement, Distillation, and Inference-time Sampling), an inference-time refinement framework that operates on a frozen pre-trained backbone, configured per dataset by a Tree-structured Parzen Estimator search over score-level guidance during reverse diffusion, with each trial's objective set by an inner grid search over post-hoc sample selectors and an optional soft-label distillation step. The search space encodes a single mathematical pattern we name Bidirectional Chamfer Refinement (BCR): the symmetric Chamfer functional between synthetic and real samples is minimized both continuously, via a score-level gradient, and discretely, via batch-ranking post-generation. The per-dataset search recovers BCR-aligned configurations on most datasets, evidence for BCR as the dominant refinement pattern. Across 15 binary, multiclass, and regression benchmarks TARDIS achieves a median +8.6% downstream-task improvement over models trained on real data (95% CI [+3.3, +16.4], Wilcoxon p=0.016, 11/15 strict wins) and improves over the TabDiff backbone on all 15 datasets (mean +12.9%, p<10^-4), matching the backbone on manifold fidelity, diversity, and sample-level privacy. Inference-time refinement of a pre-trained tabular diffusion backbone reaches and exceeds real-data utility in 1 to 80 minutes on a single consumer-grade GPU.
- Abstract(参考訳): 拡散に基づくジェネレータは、合成表データに対して現在の状態を設定する。
これらの手法は実際のデータユーティリティを超えることはめったにないが、この合成と実際のギャップを埋めることはこれまで、アーキテクチャの進歩、スケーリング、モノリシック発電機の再訓練を通じて、トレーニング時にのみ追求されてきた。
推論時間(inference-time)の代替手段、すなわち、トレーニング済みのバックボーンの出力を未修正のパラメータで精製することは、表の合成のためにほとんど未探索のままである。
TARDIS(Tabular generation through Refinement, Distillation, and Inference-time Smpling)は、凍結した事前学習したバックボーン上で動作し、逆拡散中のスコアレベルのガイダンスをサーチする木構造パーゼン推定器によってデータセット毎に設定され、各試験の目的は、ポストホックサンプルセレクタ上のインナーグリッドサーチとオプションのソフトラベル蒸留ステップによって設定される。
BCR (Bidirectional Chamfer Refinement) と呼ばれる単一の数学的パターンを符号化する探索空間は、合成サンプルと実サンプルの対称なChamfer関数は、スコアレベルの勾配によって、またバッチレベルのポストジェネレーションによって、連続的に最小化される。
データセットごとの検索は、ほとんどのデータセットでBCRに整列した構成を復元し、BCRが主流の精細化パターンであることを示す。
15のバイナリ、マルチクラス、レグレッションベンチマークにわたって、TARDISは、実際のデータでトレーニングされたモデル(95% CI [+3.3, +16.4], Wilcoxon p=0.016, 11/15 厳密な勝利)に対して、中央値+8.6%のダウンストリームタスク改善を実現し、全15データセット(平均+12.9%, p<10^-4)上のタブディフバックボーンを改善し、多様体の忠実さ、多様性、サンプルレベルのプライバシに関するバックボーンをマッチングする。
トレーニング済みの表層拡散バックボーンの推測時間改善は、1つのコンシューマグレードGPU上で1~80分で実データユーティリティを超えている。
関連論文リスト
- Do Generative Metrics Predict YOLO Performance? An Evaluation Across Models, Augmentation Ratios, and Dataset Complexity [43.338311770275745]
本報告では, YOLOv11の合成増強の制御された評価法について述べる。
実際のトレーニングスプリットの10%から150%の増大率に対して, GAN, 拡散, ハイブリッドベースの6つのジェネレータをベンチマークした。
データセット生成/拡張設定毎に、マッチしたサイズのブートストラッププロトコルで事前トレーニングデータセットメトリクスを計算する。
論文 参考訳(メタデータ) (2026-02-20T03:02:36Z) - LSCD: Lomb-Scargle Conditioned Diffusion for Time series Imputation [55.800319453296886]
欠落または不規則なサンプルデータを持つ時系列は、機械学習において永続的な課題である。
我々は,不規則サンプルデータのパワースペクトルの信頼性の高い計算を可能にする,異なるLombiable-Scargle層を導入する。
論文 参考訳(メタデータ) (2025-06-20T14:48:42Z) - Advancing Tabular Stroke Modelling Through a Novel Hybrid Architecture and Feature-Selection Synergy [0.9999629695552196]
本研究は、ストロークを予測するように設計されたデータ駆動型、解釈可能な機械学習フレームワークを開発し、検証する。
定期的に収集された人口統計、生活習慣、臨床変数は4,981件の公的なコホートから得られた。
提案したモデルでは精度97.2%、F1スコア97.15%が達成され、先行する個人モデルと比較して大幅に向上した。
論文 参考訳(メタデータ) (2025-05-18T21:46:45Z) - Distributional Diffusion Models with Scoring Rules [83.38210785728994]
拡散モデルは高品質な合成データを生成する。
高品質な出力を生成するには、多くの離散化ステップが必要です。
クリーンデータサンプルの後部エム分布を学習し,サンプル生成を実現することを提案する。
論文 参考訳(メタデータ) (2025-02-04T16:59:03Z) - DispFormer: A Pretrained Transformer Incorporating Physical Constraints for Dispersion Curve Inversion [56.64622091009756]
本研究では、レイリー波位相と群分散曲線からプロファイルインバージョンを$v_s$とするトランスフォーマーベースのニューラルネットワークであるDispFormerを紹介する。
DispFormerは各期間に分散データを個別に処理し、ネットワークの変更やデータセットのトレーニングとテストの厳格な調整を必要とせずに、さまざまな長さを処理できる。
論文 参考訳(メタデータ) (2025-01-08T09:08:24Z) - Spanning Training Progress: Temporal Dual-Depth Scoring (TDDS) for Enhanced Dataset Pruning [50.809769498312434]
我々は、時間的デュアルディープス・スコーリング(TDDS)と呼ばれる新しいデータセット・プルーニング手法を提案する。
本手法は,10%のトレーニングデータで54.51%の精度を達成し,ランダム選択を7.83%以上,他の比較手法を12.69%以上上回る結果を得た。
論文 参考訳(メタデータ) (2023-11-22T03:45:30Z) - Embarassingly Simple Dataset Distillation [0.0]
本研究は, 2段階最適化問題として直接扱うことにより, その中核におけるデータセットの蒸留に取り組む。
蒸留されたデータの性質を深く掘り下げると、相互相関が明らかになる。
異なるデータ予算にまたがって、ほぼ最適性能のサブセットを含む蒸留データセットを生成するブーピング機構を考案する。
論文 参考訳(メタデータ) (2023-11-13T02:14:54Z) - Imputing Missing Observations with Time Sliced Synthetic Minority
Oversampling Technique [0.3973560285628012]
本稿では,データセット内の各サンプルに対して均一な不規則な時系列を構成することを目的とした,単純かつ斬新な時系列計算手法を提案する。
我々は、観測時間の重複しないビン(「スライス」と呼ばれる)の中間点で定義される格子を固定し、各サンプルが所定の時間にすべての特徴に対して値を持つことを保証する。
これにより、完全に欠落した観察をインプットし、データ全体の時系列の均一な分類を可能にし、特別な場合には個々の欠落した特徴をインプットすることができる。
論文 参考訳(メタデータ) (2022-01-14T19:23:24Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。