論文の概要: LLMSynthor: Macro-Aligned Micro-Records Synthesis with Large Language Models
- arxiv url: http://arxiv.org/abs/2505.14752v2
- Date: Sat, 11 Oct 2025 03:37:31 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 15:48:08.569649
- Title: LLMSynthor: Macro-Aligned Micro-Records Synthesis with Large Language Models
- Title(参考訳): LLMSynthor:大規模言語モデルを用いたマクロアラインマイクロレコード合成
- Authors: Yihong Tang, Menglin Kong, Junlin He, Tong Nie, Lijun Sun,
- Abstract要約: LLM Synthorは、ターゲットのマクロ統計と一致した現実的なマイクロレコードを生成するマクロ認識シミュレータである。
合成データセットを反復的に構築し、合成アグリゲーションとターゲットアグリゲーションの差を最小限に抑える。
強力な現実主義、統計的忠実さ、実用性を実現し、経済学、社会科学、都市研究に広く応用されている。
- 参考スコア(独自算出の注目度): 20.767947974005168
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Macro-aligned micro-records are crucial for credible simulations in social science and urban studies. For example, epidemic models are only reliable when individual-level mobility and contacts mirror real behavior, while aggregates match real-world statistics like case counts or travel flows. However, collecting such fine-grained data at scale is impractical, leaving researchers with only macro-level data. LLMSynthor addresses this by turning a pretrained LLM into a macro-aware simulator that generates realistic micro-records consistent with target macro-statistics. It iteratively builds synthetic datasets: in each step, the LLM generates batches of records to minimize discrepancies between synthetic and target aggregates. Treating the LLM as a nonparametric copula allows the model to capture realistic joint dependencies among variables. To improve efficiency, LLM Proposal Sampling guides the LLM to propose targeted record batches, specifying variable ranges and counts, to efficiently correct discrepancies while preserving realism grounded in the model's priors. Evaluations across domains (mobility, e-commerce, population) show that LLMSynthor achieves strong realism, statistical fidelity, and practical utility, making it broadly applicable to economics, social science, and urban studies.
- Abstract(参考訳): マクロアライメントのマイクロレコードは、社会科学や都市研究における信頼性のあるシミュレーションに不可欠である。
例えば、パンデミックモデルは、個々のレベルのモビリティと接触が実際の振る舞いを反映するときにのみ信頼性が高く、アグリゲーションはケースカウントやトラベルフローのような現実の統計と一致する。
しかし、そのような微細なデータを大規模に収集するのは現実的ではなく、研究者にはマクロレベルのデータしか残っていない。
LLMSynthorは、事前学習したLCMをマクロ認識シミュレータに変換し、ターゲットのマクロ統計と整合した現実的なマイクロレコードを生成する。
合成データセットを反復的に構築し、各ステップでLLMは、合成アグリゲーションとターゲットアグリゲーションの差を最小限に抑えるために、レコードのバッチを生成する。
LLMを非パラメトリックコプラとして扱うことで、モデルは変数間の現実的な関節依存を捉えることができる。
効率を向上させるため、LLM提案サンプリングはLLMを誘導し、ターゲットレコードバッチの提案、可変範囲とカウントの指定、モデルの先行に根ざしたリアリズムを保ちながら効率よく不一致を補正する。
地域(モビリティ、電子商取引、人口)における評価は、LLMSynthorが強い現実主義、統計的忠実性、実用性を達成し、経済学、社会科学、都市研究に広く適用可能であることを示している。
関連論文リスト
- FASTGEN: Fast and Cost-Effective Synthetic Tabular Data Generation with LLMs [3.703188184729035]
合成データ生成は、現実のデータ収集と使用がコストと不足によって制限されるシナリオにおいて、重要なソリューションである。
個々のレコードを生成するために大きな言語モデルを直接使用する既存のアプローチは、禁止時間とコスト負担を個別に課している。
LLMを利用して各フィールドの分布を再利用可能なサンプリングスクリプトに推論してエンコードする,現実的な表形式データ合成のための高速で費用対効果の高い手法を提案する。
論文 参考訳(メタデータ) (2025-07-21T17:51:46Z) - Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。
我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。
以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2025-05-06T07:57:16Z) - Scaling Laws of Synthetic Data for Language Models [132.67350443447611]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - LLM-TabFlow: Synthetic Tabular Data Generation with Inter-column Logical Relationship Preservation [49.898152180805454]
本研究は,合成表型データ生成におけるカラム間関係の保存について,初めて明示的に検討したものである。
LLM-TabFlowは複雑なカラム間関係と圧縮データをキャプチャする新しい手法であり、Score-based Diffusion を用いて遅延空間における圧縮データの分布をモデル化する。
LLM-TabFlowは、カラム間の関係を完全に保ちながら、データの忠実性、ユーティリティ、プライバシの最良のバランスを保ちながら、すべてのベースラインを上回ります。
論文 参考訳(メタデータ) (2025-03-04T00:47:52Z) - Not All LLM-Generated Data Are Equal: Rethinking Data Weighting in Text Classification [7.357494019212501]
本研究では,合成データと実世界の分布を協調する効率的な重み付け手法を提案する。
複数のテキスト分類タスクにおいて,提案手法の有効性を実証的に評価した。
論文 参考訳(メタデータ) (2024-10-28T20:53:49Z) - Why LLMs Are Bad at Synthetic Table Generation (and what to do about it) [11.266896863556124]
合成データ生成は、トレーニングデータを増強したり、機密情報を置き換えたり、DeepSeekのような先進的なプラットフォームに電力を供給するなど、MLパイプラインに不可欠なものだ。
合成データ生成のための微調整 LLM が普及している一方で、合成表生成はテキストや画像合成と比較して未探索のままである。
本稿では, 従来の微調整に用いたとしても, LLMが合成表の生成に不適であることを示す。
論文 参考訳(メタデータ) (2024-06-20T17:52:29Z) - Unveiling the Flaws: Exploring Imperfections in Synthetic Data and Mitigation Strategies for Large Language Models [89.88010750772413]
大規模言語モデル(LLM)の学習における高品質なデータ不足問題に対する解決法として,合成データを提案する。
我々の研究は、Q-A(Q-A)ペア、一般的な合成データに関連するこれらの特定の欠陥を掘り下げ、これらの欠陥を軽減するための未学習技術に基づく方法を提案する。
我々の研究は、より堅牢で効率的なLLMトレーニングを促進することを目的として、合成データの効果的な利用に関する重要な洞察を得た。
論文 参考訳(メタデータ) (2024-06-18T08:38:59Z) - Synthetic Oversampling: Theory and A Practical Approach Using LLMs to Address Data Imbalance [16.047084318753377]
不均衡な分類と急激な相関は、データサイエンスと機械学習における一般的な課題である。
近年の進歩は、大規模言語モデルの柔軟性と生成能力を生かして合成サンプルを生成することを提案した。
本稿では,不均衡な分類とスプリアス相関に対処する上で,合成試料の役割を体系的に研究する新たな理論基盤を開発する。
論文 参考訳(メタデータ) (2024-06-05T21:24:26Z) - Curated LLM: Synergy of LLMs and Data Curation for tabular augmentation in low-data regimes [57.62036621319563]
本稿では,Large Language Models (LLMs) の知識を低データ構造におけるデータ拡張に活用したCLLMを紹介する。
従来のジェネレータと比較して,低データ方式におけるCLLMの優れた性能を示す。
論文 参考訳(メタデータ) (2023-12-19T12:34:46Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - CAFE: Learning to Condense Dataset by Aligning Features [72.99394941348757]
本稿ではCAFE(Aligning features)によるCondenseデータセットの新しいスキームを提案する。
このアプローチの核心は、さまざまなスケールにわたる実データと合成データから機能を整合させる効果的な戦略です。
提案したCAFEを様々なデータセットで検証し,概ね最先端技術であることを示す。
論文 参考訳(メタデータ) (2022-03-03T05:58:49Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。