論文の概要: An Active Learning-Based Streaming Pipeline for Reduced Data Training of Structure Finding Models in Neutron Diffractometry
- arxiv url: http://arxiv.org/abs/2506.11100v1
- Date: Fri, 06 Jun 2025 15:48:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-16 17:50:49.459543
- Title: An Active Learning-Based Streaming Pipeline for Reduced Data Training of Structure Finding Models in Neutron Diffractometry
- Title(参考訳): 中性子ディフラクトメトリーにおける構造探索モデルの縮小データトレーニングのためのアクティブラーニングベースストリーミングパイプライン
- Authors: Tianle Wang, Jorge Ramirez, Cristina Garcia-Cardona, Thomas Proffen, Shantenu Jha, Sudip K. Seal,
- Abstract要約: 本研究では,不確実性サンプリングを用いて確率分布から抽出した学習データをシミュレートする新しいバッチモードアクティブラーニング(AL)ポリシーを提案する。
精度を向上しながら、トレーニングデータの約75%の削減で、同じモデルのトレーニングにおける有効性を確認した。
次に、このALポリシを用いた効率的なストリームベースのトレーニングワークフローの設計について論じ、2つの異種プラットフォームの性能調査を示す。
- 参考スコア(独自算出の注目度): 1.3083205962260995
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Structure determination workloads in neutron diffractometry are computationally expensive and routinely require several hours to many days to determine the structure of a material from its neutron diffraction patterns. The potential for machine learning models trained on simulated neutron scattering patterns to significantly speed up these tasks have been reported recently. However, the amount of simulated data needed to train these models grows exponentially with the number of structural parameters to be predicted and poses a significant computational challenge. To overcome this challenge, we introduce a novel batch-mode active learning (AL) policy that uses uncertainty sampling to simulate training data drawn from a probability distribution that prefers labelled examples about which the model is least certain. We confirm its efficacy in training the same models with about 75% less training data while improving the accuracy. We then discuss the design of an efficient stream-based training workflow that uses this AL policy and present a performance study on two heterogeneous platforms to demonstrate that, compared with a conventional training workflow, the streaming workflow delivers about 20% shorter training time without any loss of accuracy.
- Abstract(参考訳): 中性子回折法における構造決定の作業は計算コストが高く、中性子回折パターンから物質の構造を決定するのに数時間から数日を常用する。
シミュレーションされた中性子散乱パターンに基づいてトレーニングされた機械学習モデルが、これらのタスクを著しく高速化する可能性があることが最近報告されている。
しかし、これらのモデルを訓練するために必要なシミュレーションデータの量は、予測される構造パラメータの数とともに指数関数的に増加し、重要な計算課題を生じさせる。
この課題を克服するために,確率分布から抽出したトレーニングデータをシミュレーションするために,不確実性サンプリングを用いた新しいバッチモードアクティブラーニング(AL)ポリシーを導入する。
精度を向上しながら、トレーニングデータの約75%の削減で、同じモデルのトレーニングにおける有効性を確認した。
次に、このALポリシを使用した効率的なストリームベースのトレーニングワークフローの設計について論じ、従来のトレーニングワークフローと比較して、ストリーミングワークフローが精度を損なわずに約20%短いトレーニングタイムを提供することを示すために、2つの異種プラットフォームのパフォーマンス調査を示す。
関連論文リスト
- Distilled Datamodel with Reverse Gradient Matching [74.75248610868685]
オフライントレーニングとオンライン評価段階を含む,データ影響評価のための効率的なフレームワークを提案する。
提案手法は, 直接再学習法と比較して, プロセスの大幅な高速化を図りながら, 同等のモデル行動評価を実現する。
論文 参考訳(メタデータ) (2024-04-22T09:16:14Z) - Towards Theoretical Understandings of Self-Consuming Generative Models [56.84592466204185]
本稿では,自己消費ループ内で生成モデルを訓練する新たな課題に取り組む。
我々は,このトレーニングが将来のモデルで学習したデータ分布に与える影響を厳格に評価するための理論的枠組みを構築した。
カーネル密度推定の結果は,混合データトレーニングがエラー伝播に与える影響など,微妙な洞察を与える。
論文 参考訳(メタデータ) (2024-02-19T02:08:09Z) - Diffusion-Model-Assisted Supervised Learning of Generative Models for
Density Estimation [10.793646707711442]
本稿では,密度推定のための生成モデルを訓練するためのフレームワークを提案する。
スコアベース拡散モデルを用いてラベル付きデータを生成する。
ラベル付きデータが生成されると、シンプルな完全に接続されたニューラルネットワークをトレーニングして、教師付き方法で生成モデルを学ぶことができます。
論文 参考訳(メタデータ) (2023-10-22T23:56:19Z) - Stabilizing Subject Transfer in EEG Classification with Divergence
Estimation [17.924276728038304]
脳波分類タスクを記述するためのグラフィカルモデルをいくつか提案する。
理想的な訓練シナリオにおいて真であるべき統計的関係を同定する。
我々は、これらの関係を2段階で強制する正規化罰則を設計する。
論文 参考訳(メタデータ) (2023-10-12T23:06:52Z) - Alleviating the Effect of Data Imbalance on Adversarial Training [26.36714114672729]
長い尾の分布に従うデータセットの逆トレーニングについて検討する。
我々は、新しい対人訓練フレームワーク、Re-balancing Adversarial Training (REAT)を提案する。
論文 参考訳(メタデータ) (2023-07-14T07:01:48Z) - BOOT: Data-free Distillation of Denoising Diffusion Models with
Bootstrapping [64.54271680071373]
拡散モデルは多様な画像を生成する優れた可能性を示している。
知識蒸留は、推論ステップの数を1つか数に減らすための治療法として最近提案されている。
本稿では,効率的なデータフリー蒸留アルゴリズムにより限界を克服するBOOTと呼ばれる新しい手法を提案する。
論文 参考訳(メタデータ) (2023-06-08T20:30:55Z) - A Physics-informed Diffusion Model for High-fidelity Flow Field
Reconstruction [0.0]
本研究では,高忠実度データのみを使用する拡散モデルを提案する。
異なる構成で、本モデルでは、正規の低忠実度サンプルまたはスパース測定サンプルから高忠実度データを再構成することができる。
本モデルでは, 異なる入力源に基づく2次元乱流の正確な再構成結果が得られるが, 再学習は行わない。
論文 参考訳(メタデータ) (2022-11-26T23:14:18Z) - Towards Robust Dataset Learning [90.2590325441068]
本稿では,頑健なデータセット学習問題を定式化するための三段階最適化法を提案する。
ロバストな特徴と非ロバストな特徴を特徴付ける抽象モデルの下で,提案手法はロバストなデータセットを確実に学習する。
論文 参考訳(メタデータ) (2022-11-19T17:06:10Z) - Stabilizing Machine Learning Prediction of Dynamics: Noise and
Noise-inspired Regularization [58.720142291102135]
近年、機械学習(ML)モデルはカオス力学系の力学を正確に予測するために訓練可能であることが示されている。
緩和技術がなければ、この技術は人工的に迅速にエラーを発生させ、不正確な予測と/または気候不安定をもたらす可能性がある。
トレーニング中にモデル入力に付加される多数の独立雑音実効化の効果を決定論的に近似する正規化手法であるLinearized Multi-Noise Training (LMNT)を導入する。
論文 参考訳(メタデータ) (2022-11-09T23:40:52Z) - Churn Reduction via Distillation [54.5952282395487]
本研究は, 基礎モデルを教師として用いた蒸留によるトレーニングと, 予測的チャーンに対する明示的な制約によるトレーニングとの等価性を示す。
次に, 蒸留が近年の多くのベースラインに対する低チャーン訓練に有効であることを示す。
論文 参考訳(メタデータ) (2021-06-04T18:03:31Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。