論文の概要: A Note on Statistically Accurate Tabular Data Generation Using Large Language Models
- arxiv url: http://arxiv.org/abs/2505.02659v2
- Date: Tue, 06 May 2025 08:34:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-05-07 12:42:37.979626
- Title: A Note on Statistically Accurate Tabular Data Generation Using Large Language Models
- Title(参考訳): 大規模言語モデルを用いた統計的精度の高い語彙データ生成に関する一考察
- Authors: Andrey Sidorenko,
- Abstract要約: この研究は、大規模言語モデルを利用して条件分布を推定する確率駆動的プロンプト手法を導入する。
その結果,大規模言語モデルが生成するデータの統計的忠実度を高めるために,確率分布の促進の可能性を強調した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Large language models (LLMs) have shown promise in synthetic tabular data generation, yet existing methods struggle to preserve complex feature dependencies, particularly among categorical variables. This work introduces a probability-driven prompting approach that leverages LLMs to estimate conditional distributions, enabling more accurate and scalable data synthesis. The results highlight the potential of prompting probability distributions to enhance the statistical fidelity of LLM-generated tabular data.
- Abstract(参考訳): 大規模言語モデル(LLM)は、合成表データ生成において有望であることを示しているが、既存のメソッドは、特に分類変数において、複雑な機能依存を保存するのに苦労している。
この研究は、LLMを利用して条件分布を推定し、より正確でスケーラブルなデータ合成を可能にする確率駆動的プロンプト手法を導入する。
その結果, LLM生成表データの統計的忠実度を高めるために, 確率分布の促進の可能性を強調した。
関連論文リスト
- LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - SampleLLM: Optimizing Tabular Data Synthesis in Recommendations [46.689486044254544]
タブラルデータ合成は機械学習において重要であるが、既存の一般的な手法は非常にデータに依存しており、レコメンデータシステムでは不足することが多い。
この制限は、複雑な分布を捉え、スパースデータと限定データから特徴関係を理解するのが困難であることから生じる。
そこで本研究では,LLMに基づくデータ合成の品質向上を目的とした,SampleLLMという2段階のフレームワークを提案する。
論文 参考訳(メタデータ) (2025-01-27T15:12:27Z) - P-TA: Using Proximal Policy Optimization to Enhance Tabular Data Augmentation via Large Language Models [15.969452637480167]
我々は、GAN(Generative Adversarial Networks)を適用するために、PPO(Maximal Policy Optimization)を提案する。
PPOは、最先端のデータセットに対して合成生成されたデータに基づいてトレーニングされたモデルの精度を約4%向上させる。
論文 参考訳(メタデータ) (2024-06-17T10:22:00Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Interpretable Medical Diagnostics with Structured Data Extraction by
Large Language Models [59.89454513692417]
タブラルデータはしばしばテキストに隠され、特に医学的診断報告に使用される。
本稿では,TEMED-LLM と呼ばれるテキスト医療報告から構造化表状データを抽出する手法を提案する。
本手法は,医学診断における最先端のテキスト分類モデルよりも優れていることを示す。
論文 参考訳(メタデータ) (2023-06-08T09:12:28Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。