論文の概要: Benchmarking Simulacra AI's Quantum Accurate Synthetic Data Generation for Chemical Sciences
- arxiv url: http://arxiv.org/abs/2511.07433v1
- Date: Thu, 30 Oct 2025 19:19:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-16 06:38:31.050152
- Title: Benchmarking Simulacra AI's Quantum Accurate Synthetic Data Generation for Chemical Sciences
- Title(参考訳): 化学科学のためのSimulacra AIの量子正確な合成データ生成のベンチマーク
- Authors: Fabio Falcioni, Elena Orlova, Timothy Heightman, Philip Mantrov, Aleksei Ustimenko,
- Abstract要約: 我々は,シミュラクラの合成データ生成パイプラインを,小規模から大規模システムのデータセット上で,最先端のMicrosoftパイプラインと比較した。
その結果,SimulacraのLWM(Large Wavefunction Models)パイプラインは,最先端の変分モンテカルロ(VMC)サンプリングアルゴリズムと組み合わせることで,データ生成コストを15~50倍に削減できることがわかった。
- 参考スコア(独自算出の注目度): 9.886732105753714
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this work, we benchmark \simulacra's synthetic data generation pipeline against a state-of-the-art Microsoft pipeline on a dataset of small to large systems. By analyzing the energy quality, autocorrelation times, and effective sample size, our findings show that Simulacra's Large Wavefunction Models (LWM) pipeline, paired with state-of-the-art Variational Monte Carlo (VMC) sampling algorithms, reduces data generation costs by 15-50x, while maintaining parity in energy accuracy, and 2-3x compared to traditional CCSD methods on the scale of amino acids. This enables the creation of affordable, large-scale \textit{ab-initio} datasets, accelerating AI-driven optimization and discovery in the pharmaceutical industry and beyond. Our improvements are based on a novel and proprietary sampling scheme called Replica Exchange with Langevin Adaptive eXploration (RELAX).
- Abstract(参考訳): この研究では、小規模から大規模システムのデータセット上で、Shasimulacraの合成データ生成パイプラインを最先端のMicrosoftパイプラインと比較する。
その結果,Simulacra's Large Wavefunction Models (LWM) パイプラインと最先端の変分モンテカルロ (VMC) サンプリングアルゴリズムを組み合わせ,エネルギーの精度を保ちながらデータ生成コストを15~50倍削減し,従来のCCSD法と比較して2~3倍削減した。
これにより、手頃で大規模な \textit{ab-initio} データセットの作成が可能になり、医薬品業界などにおけるAI駆動の最適化と発見が加速される。
我々の改良は、Replica Exchange with Langevin Adaptive eXploration (RELAX)と呼ばれる新規でプロプライエタリなサンプリング方式に基づいている。
関連論文リスト
- GEM+: Scalable State-of-the-Art Private Synthetic Data with Generator Networks [9.432150710329607]
本稿では,AIMの適応計測フレームワークとGEMのスケーラブルなジェネレータネットワークを統合したGEM+を紹介する。
実験の結果,GEM+はAIMよりも実用性とスケーラビリティに優れ,最先端の成果が得られていることがわかった。
論文 参考訳(メタデータ) (2025-11-12T19:18:43Z) - Quantum Synthetic Data Generation for Industrial Bioprocess Monitoring [0.0]
バイオマニュファクチャリングにおけるデータの不足とスパーシリティは、正確なモデル開発、プロセス監視、最適化に課題をもたらす。
本稿では,QWGAN-GP(Quantum Wasserstein Generative Adrial Network with Gradient Penalty)を用いて,産業関連プロセスの時系列データを生成することを提案する。
論文 参考訳(メタデータ) (2025-10-20T16:04:39Z) - Scaling Transformer-Based Novel View Synthesis Models with Token Disentanglement and Synthetic Data [53.040873127309766]
本稿では,トランスアーキテクチャ内でのトークンのアンタングル化プロセスを提案し,特徴分離を向上し,より効果的な学習を実現する。
提案手法は,データセット内およびデータセット間の評価において,既存のモデルよりも優れる。
論文 参考訳(メタデータ) (2025-09-08T17:58:06Z) - Scaling Laws of Synthetic Data for Language Models [125.41600201811417]
プレトレーニングコーパスを多種多様な高品質な合成データセットに変換するスケーラブルなフレームワークであるSynthLLMを紹介した。
提案手法は,グラフアルゴリズムを用いて複数の文書にまたがるハイレベルな概念を自動的に抽出し,再結合することで実現している。
論文 参考訳(メタデータ) (2025-03-25T11:07:12Z) - Synthetic data, real errors: how (not) to publish and use synthetic data [86.65594304109567]
生成過程が下流MLタスクにどのように影響するかを示す。
本稿では、生成プロセスモデルパラメータの後方分布を近似するために、Deep Generative Ensemble (DGE)を導入する。
論文 参考訳(メタデータ) (2023-05-16T07:30:29Z) - Lamarr: LHCb ultra-fast simulation based on machine learning models deployed within Gauss [0.0]
LHCb実験における検出器応答と再構成アルゴリズムの両方をパラメータ化するシミュレーション生成を高速化するフレームワークであるLamarrについて論じる。
複数のアルゴリズムと戦略を駆使した深部生成モデルを用いて、LHCb検出器の単一成分の高レベル応答を効果的にパラメータ化する。
論文 参考訳(メタデータ) (2023-03-20T20:18:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。