論文の概要: Amalgam: Hybrid LLM-PGM Synthesis Algorithm for Accuracy and Realism
- arxiv url: http://arxiv.org/abs/2603.27254v1
- Date: Sat, 28 Mar 2026 12:10:46 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-31 23:18:44.869745
- Title: Amalgam: Hybrid LLM-PGM Synthesis Algorithm for Accuracy and Realism
- Title(参考訳): Amalgam: 精度とリアリズムのためのハイブリッドLLM-PGM合成アルゴリズム
- Authors: Antheas Kapenekakis, Bent Thomsen, Katja Hose, Michele Albano,
- Abstract要約: Amalgamは、高度な分析、リアリズム、具体的なプライバシー特性をサポートするハイブリッドLLM-PGMデータ合成アルゴリズムである。
Amalgam は平均 91 % 2 P$ の値でデータを合成し,提案したメトリクスを用いて実数主義のスコア 3.8/5 を求める。
- 参考スコア(独自算出の注目度): 3.4944261506090233
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: To generate synthetic datasets, e.g., in domains such as healthcare, the literature proposes approaches of two main types: Probabilistic Graphical Models (PGMs) and Deep Learning models, such as LLMs. While PGMs produce synthetic data that can be used for advanced analytics, they do not support complex schemas and datasets. LLMs on the other hand, support complex schemas but produce skewed dataset distributions, which are less useful for advanced analytics. In this paper, we therefore present Amalgam, a hybrid LLM-PGM data synthesis algorithm supporting both advanced analytics, realism, and tangible privacy properties. We show that Amalgam synthesizes data with an average 91 % $χ^2 P$ value and scores 3.8/5 for realism using our proposed metric, where state-of-the-art is 3.3 and real data is 4.7.
- Abstract(参考訳): 医療などの領域で合成データセットを生成するために、文献は確率的グラフィカルモデル(PGM)とLLMのようなディープラーニングモデルという2つの主要なタイプのアプローチを提案する。
PGMは高度な分析に使用できる合成データを生成するが、複雑なスキーマやデータセットはサポートしていない。
一方、LLMは複雑なスキーマをサポートするが、高度な分析にはあまり役に立たない歪んだデータセット分布を生成する。
そこで本稿では,高度な分析,リアリズム,および有形プライバシー特性をサポートするハイブリッドLLM-PGMデータ合成アルゴリズムであるAmalgamを提案する。
Amalgam は平均 91 % $ ^2 P$ でデータを合成し,提案手法を用いて実数主義のスコア 3.8/5 を求める。
関連論文リスト
- Analytical Survey of Learning with Low-Resource Data: From Analysis to Investigation [192.53529928861818]
高リソースデータによる学習は人工知能(AI)において大きな成功を収めた
しかし、データアノテーションやモデルトレーニングに関連するコストは依然として大きい。
本調査では,低リソースデータからの学習に伴う一般化誤差とラベル複雑性を分析するために,アクティブサンプリング理論を用いた。
論文 参考訳(メタデータ) (2025-10-10T03:15:42Z) - MatPROV: A Provenance Graph Dataset of Material Synthesis Extracted from Scientific Literature [1.171928204630468]
本稿では,科学文献から抽出したProV-DM準拠合成手順のデータセットであるMatPROVについて述べる。
MatPROVは、視覚的に直感的な有向グラフを通じて、材料、操作、条件の間の構造的複雑さと因果関係をキャプチャする。
論文 参考訳(メタデータ) (2025-09-01T00:47:27Z) - LLMSynthor: Macro-Aligned Micro-Records Synthesis with Large Language Models [20.767947974005168]
LLM Synthorは、ターゲットのマクロ統計と一致した現実的なマイクロレコードを生成するマクロ認識シミュレータである。
合成データセットを反復的に構築し、合成アグリゲーションとターゲットアグリゲーションの差を最小限に抑える。
強力な現実主義、統計的忠実さ、実用性を実現し、経済学、社会科学、都市研究に広く応用されている。
論文 参考訳(メタデータ) (2025-05-20T13:35:38Z) - Synthline: A Product Line Approach for Synthetic Requirements Engineering Data Generation using Large Language Models [0.5156484100374059]
本稿では,大規模言語モデルを用いて合成要求工学(RE)データを生成する製品ライン(PL)アプローチであるSynthlineを紹介する。
我々の分析によると、合成データセットは実際のデータよりも多様性が低いが、実行可能なトレーニングリソースとして機能するには十分である。
以上の結果から, 合成データと実データを組み合わせることで, 大幅な性能向上が期待できる。
論文 参考訳(メタデータ) (2025-05-06T07:57:16Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Can LLMs Help Uncover Insights about LLMs? A Large-Scale, Evolving Literature Analysis of Frontier LLMs [32.48924329288906]
本研究では,LLMを用いたデータ抽出を高速化する文献解析のための半自動手法を提案する。
関連するarXiv論文を自動的に識別し、実験結果と関連する属性を抽出し、構造化データセットLLMEvalDBに編成する。
次に、フロンティアLCMの自動文献解析を行い、手動によるアプローチと比較して、紙調査とデータ抽出の労力を93%以上削減する。
論文 参考訳(メタデータ) (2025-02-26T03:56:34Z) - Empowering Meta-Analysis: Leveraging Large Language Models for Scientific Synthesis [7.059964549363294]
本研究では,大規模言語モデル(LLM)を用いた科学文献におけるメタアナリシスの自動化について検討する。
ビッグデータ処理と構造化データ抽出の課題に対処するため,LLMを広範囲の科学的データセットに微調整する新たなアプローチを提案する。
論文 参考訳(メタデータ) (2024-11-16T20:18:57Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。