論文の概要: A Note on Statistically Accurate Tabular Data Generation Using Large Language Models
- arxiv url: http://arxiv.org/abs/2505.02659v1
- Date: Mon, 05 May 2025 14:05:15 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-06 18:49:35.698547
- Title: A Note on Statistically Accurate Tabular Data Generation Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた統計的精度の高い語彙データ生成に関する一考察
- Authors: Andrey Sidorenko,
- Abstract要約: 本研究は,大規模言語モデル(LLM)を用いて条件分布を推定する確率駆動的プロンプト手法を提案する。
その結果, LLM生成表データの統計的忠実度を高めるため, 確率分布の促進の可能性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promise in synthetic tabular data generation, yet existing methods struggle to preserve complex feature dependencies, particularly among categorical variables. This work introduces a probability-driven prompting approach that leverages LLMs to estimate conditional distributions, enabling more accurate and scalable data synthesis. The results highlight the potential of prompting probobility distributions to enhance the statistical fidelity of LLM-generated tabular data.
- Abstract(参考訳): 大規模言語モデル(LLM)は、合成表データ生成において有望であることを示しているが、既存のメソッドは、特に分類変数において、複雑な機能依存を保存するのに苦労している。
この研究は、LLMを利用して条件分布を推定し、より正確でスケーラブルなデータ合成を可能にする確率駆動的プロンプト手法を導入する。
その結果, LLM生成表データの統計的忠実度を高めるため, 確率分布の促進の可能性を強調した。
関連論文リスト
- SPaRFT: Self-Paced Reinforcement Fine-Tuning for Large Language Models [51.74498855100541]
大規模言語モデル(LLM)は、強化学習(RL)による微調整時に強い推論能力を示す。
トレーニング対象のモデルの性能に基づいて,効率的な学習を可能にする自己評価学習フレームワークである textbfSPaRFT を提案する。
論文 参考訳(メタデータ) (2025-08-07T03:50:48Z) - In-Context Bias Propagation in LLM-Based Tabular Data Generation [2.182762698614784]
文脈内バイアスが緩やかであっても、大域的な統計的歪みにつながることを示す。
悪意のあるコントリビュータが、合成データセットにバイアスを注入する逆シナリオを導入する。
以上の結果から,LSMに基づくデータ生成パイプラインに関連する新たな脆弱性が示唆された。
論文 参考訳(メタデータ) (2025-06-11T11:39:29Z) - Large Language Models for Data Synthesis [17.333852085464176]
大規模言語モデル(LLM)は、現実の分布よりも柔軟で高次元の先行性を持つ。
LLM Synthorは、LLMを分布フィードバックによって誘導される構造対応シミュレータに変換するデータ合成のためのフレームワークである。
要約統計空間における相違を最小化することにより、反復合成ループは実データと合成データを整列させる。
論文 参考訳(メタデータ) (2025-05-20T13:35:38Z) - LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - SampleLLM: Optimizing Tabular Data Synthesis in Recommendations [46.689486044254544]
タブラルデータ合成は機械学習において重要であるが、既存の一般的な手法は非常にデータに依存しており、レコメンデータシステムでは不足することが多い。
この制限は、複雑な分布を捉え、スパースデータと限定データから特徴関係を理解するのが困難であることから生じる。
そこで本研究では,LLMに基づくデータ合成の品質向上を目的とした,SampleLLMという2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-27T15:12:27Z) - Matchmaker: Self-Improving Large Language Model Programs for Schema Matching [60.23571456538149]
本稿では,スキーママッチングのための合成言語モデルプログラムを提案する。
Matchmakerは、ラベル付きデモを必要とせずに、ゼロショットで自己改善する。
実証的に、Matchmakerが以前のMLベースのアプローチより優れている実世界の医療スキーママッチングベンチマークを実証する。
論文 参考訳(メタデータ) (2024-10-31T16:34:03Z) - P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models [15.969452637480167]
我々は、GAN(Generative Adversarial Networks)を適用するために、PPO(Maximal Policy Optimization)を提案する。
PPOは、最先端のデータセットに対して合成生成されたデータに基づいてトレーニングされたモデルの精度を約4%向上させる。
論文 参考訳(メタデータ) (2024-06-17T10:22:00Z) - Multi-objective evolutionary GAN for tabular data synthesis [0.873811641236639]
合成データは統計機関や他の統計データ生成装置によるデータ共有において重要な役割を果たしている。
本稿では,SMOE-CTGAN(SMOE-CTGAN)を合成データとして提案する。
以上の結果から,SMOE-CTGANは,複数の国勢調査データセットに対して,異なるリスクと実用レベルを持つ合成データセットを発見可能であることが示唆された。
論文 参考訳(メタデータ) (2024-04-15T23:07:57Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Amortizing intractable inference in large language models [56.92471123778389]
難治性後部分布のサンプルとして, 償却ベイズ推定を用いる。
我々は,LLMファインチューニングの分散マッチングパラダイムが,最大習熟の代替となることを実証的に実証した。
重要な応用として、チェーン・オブ・ソート推論を潜在変数モデリング問題として解釈する。
論文 参考訳(メタデータ) (2023-10-06T16:36:08Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。