論文の概要: Privately Fine-Tuned LLMs Preserve Temporal Dynamics in Tabular Data
- arxiv url: http://arxiv.org/abs/2602.02766v1
- Date: Mon, 02 Feb 2026 20:19:52 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-04 18:37:15.068337
- Title: Privately Fine-Tuned LLMs Preserve Temporal Dynamics in Tabular Data
- Title(参考訳): タブラルデータ中の時相ダイナミクスを保存した自家微調整LDM
- Authors: Lucas Rosenblatt, Peihan Liu, Ryan McKenna, Natalia Ponomareva,
- Abstract要約: PATHは、全テーブルを合成の単位として扱う新しい生成フレームワークである。
本稿では,全テーブルを合成単位として扱う新しい生成フレームワークPATHを紹介する。
- 参考スコア(独自算出の注目度): 12.092250204769181
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Research on differentially private synthetic tabular data has largely focused on independent and identically distributed rows where each record corresponds to a unique individual. This perspective neglects the temporal complexity in longitudinal datasets, such as electronic health records, where a user contributes an entire (sub) table of sequential events. While practitioners might attempt to model such data by flattening user histories into high-dimensional vectors for use with standard marginal-based mechanisms, we demonstrate that this strategy is insufficient. Flattening fails to preserve temporal coherence even when it maintains valid marginal distributions. We introduce PATH, a novel generative framework that treats the full table as the unit of synthesis and leverages the autoregressive capabilities of privately fine-tuned large language models. Extensive evaluations show that PATH effectively captures long-range dependencies that traditional methods miss. Empirically, our method reduces the distributional distance to real trajectories by over 60% and reduces state transition errors by nearly 50% compared to leading marginal mechanisms while achieving similar marginal fidelity.
- Abstract(参考訳): 微分プライベートな合成表データの研究は、個々のレコードが一意の個人に対応する独立および同一の分散行に主に焦点を当てている。
この視点は、ユーザがシーケンシャルイベントの全(サブ)テーブルにコントリビュートする電子健康記録のような、時系列データセットの時間的複雑さを無視している。
利用者履歴を高次元ベクトルに平らにすることで,実践者はそのようなデータをモデル化しようとするが,この戦略は不十分であることを示す。
フラッテニングは、有効な限界分布を維持しても時間的コヒーレンスを維持することができない。
PATHは、完全テーブルを合成の単位として扱う新しい生成フレームワークであり、プライベートに微調整された大規模言語モデルの自己回帰機能を活用する。
大規模な評価は、PATHが従来のメソッドが見逃す長距離依存関係を効果的にキャプチャすることを示している。
実験により,本手法は実軌道への分布距離を60%以上削減し,遷移誤差を50%近く低減する。
関連論文リスト
- Latent Noise Injection for Private and Statistically Aligned Synthetic Data Generation [7.240170769827935]
データの合成は、スケーラブルでプライバシー保護の統計分析に欠かせないものとなっている。
マスク付き自己回帰流(MAF)を用いた潜時ノイズ注入法を提案する。
トレーニングされたモデルから直接サンプリングする代わりに、我々のメソッドは潜在空間の各データポイントを摂動させ、それをデータドメインにマップします。
論文 参考訳(メタデータ) (2025-06-19T22:22:57Z) - Continuous Visual Autoregressive Generation via Score Maximization [69.67438563485887]
本稿では,ベクトル量子化なしで直接視覚的自己回帰生成を可能にする連続VARフレームワークを提案する。
このフレームワークの中で必要なのは、厳密な適切なスコアを選択し、最適化のトレーニング目標として設定することだけです。
論文 参考訳(メタデータ) (2025-05-12T17:58:14Z) - LLM-TabLogic: Preserving Inter-Column Logical Relationships in Synthetic Tabular Data via Prompt-Guided Latent Diffusion [49.898152180805454]
合成データセットはドメイン固有の論理的一貫性を維持する必要がある。
既存の生成モデルは、しばしばこれらのカラム間の関係を見落としている。
本研究では,ドメイン知識を必要とせずに列間関係を効果的に維持する手法を提案する。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Distributionally robust self-supervised learning for tabular data [4.172010719137041]
エラースライスの存在下での堅牢な表現の学習は、高い濃度特徴とエラーセットの構築の複雑さのために困難である。
従来の堅牢な表現学習手法は、コンピュータビジョンにおける教師付き設定における最悪のグループパフォーマンスの改善に主に焦点をあてている。
提案手法は,Masked Language Modeling (MLM) の損失を学習したエンコーダ・デコーダモデルを用いて,頑健な潜在表現を学習する。
論文 参考訳(メタデータ) (2024-10-11T04:23:56Z) - Differentially Private Synthetic Data Generation for Relational Databases [9.532509662034062]
我々は、既存の差分秘密(DP)合成データ生成機構と組み合わせることができる、第一種アルゴリズムを導入する。
我々のアルゴリズムは、個々の合成テーブル間の関係を反復的に洗練し、近似誤差を最小化する。
論文 参考訳(メタデータ) (2024-05-29T00:25:07Z) - Detecting Anomalies in Dynamic Graphs via Memory enhanced Normality [39.476378833827184]
動的グラフにおける異常検出は、グラフ構造と属性の時間的進化によって大きな課題となる。
時空間記憶強調グラフオートエンコーダ(STRIPE)について紹介する。
STRIPEは、AUCスコアが5.8%改善し、トレーニング時間が4.62倍速く、既存の手法よりも大幅に優れている。
論文 参考訳(メタデータ) (2024-03-14T02:26:10Z) - On the Performance of Empirical Risk Minimization with Smoothed Data [59.3428024282545]
経験的リスク最小化(Empirical Risk Minimization、ERM)は、クラスがiidデータで学習可能であれば、サブ線形誤差を達成できる。
We show that ERM can able to achieve sublinear error when a class are learnable with iid data。
論文 参考訳(メタデータ) (2024-02-22T21:55:41Z) - The Decaying Missing-at-Random Framework: Model Doubly Robust Causal Inference with Partially Labeled Data [8.916614661563893]
因果推論を両立させるために,MARフレームワークの欠落と関連するアプローチを導入する。
これはラベル付け機構における選択バイアスとラベル付きグループとラベルなしグループの極端な不均衡に同時に対処する。
因果関係の堅牢性を確保するため,平均治療効果に対するバイアス低減SS推定器を提案する。
論文 参考訳(メタデータ) (2023-05-22T07:37:12Z) - ChiroDiff: Modelling chirographic data with Diffusion Models [132.5223191478268]
チャーログラフィーデータのための強力なモデルクラスである「拡散確率モデル(Denoising Diffusion Probabilistic Models)」やDDPMを導入している。
我々のモデルは「ChiroDiff」と呼ばれ、非自己回帰的であり、全体論的概念を捉えることを学び、したがって高い時間的サンプリングレートに回復する。
論文 参考訳(メタデータ) (2023-04-07T15:17:48Z) - Imputation-Free Learning from Incomplete Observations [73.15386629370111]
本稿では,不備な値を含む入力からの推論をインプットなしでトレーニングするIGSGD法の重要性について紹介する。
バックプロパゲーションによるモデルのトレーニングに使用する勾配の調整には強化学習(RL)を用いる。
我々の計算自由予測は、最先端の計算手法を用いて従来の2段階の計算自由予測よりも優れている。
論文 参考訳(メタデータ) (2021-07-05T12:44:39Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。