論文の概要: Gradient-Guided Furthest Point Sampling for Robust Training Set Selection
- arxiv url: http://arxiv.org/abs/2510.08906v1
- Date: Fri, 10 Oct 2025 01:41:06 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 00:38:47.91534
- Title: Gradient-Guided Furthest Point Sampling for Robust Training Set Selection
- Title(参考訳): ロバストトレーニングセット選択のためのグラディエントガイドフルテスト点サンプリング
- Authors: Morris Trestman, Stefan Gugler, Felix A. Faber, O. A. von Lilienfeld,
- Abstract要約: GGFPS(Gradient Guided Furthest Point Sampling)は、分子の配置空間の効率的なサンプリングを導くために分子力ノルムを利用するFPS(Furthest Point Sampling)の単純な拡張である。
FPSと一様サンプリングと比較すると,GGFPSを用いた場合,データ効率とロバスト性は優れていた。
- 参考スコア(独自算出の注目度): 0.7777489763207263
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Smart training set selections procedures enable the reduction of data needs and improves predictive robustness in machine learning problems relevant to chemistry. We introduce Gradient Guided Furthest Point Sampling (GGFPS), a simple extension of Furthest Point Sampling (FPS) that leverages molecular force norms to guide efficient sampling of configurational spaces of molecules. Numerical evidence is presented for a toy-system (Styblinski-Tang function) as well as for molecular dynamics trajectories from the MD17 dataset. Compared to FPS and uniform sampling, our numerical results indicate superior data efficiency and robustness when using GGFPS. Distribution analysis of the MD17 data suggests that FPS systematically under-samples equilibrium geometries, resulting in large test errors for relaxed structures. GGFPS cures this artifact and (i) enables up to two fold reductions in training cost without sacrificing predictive accuracy compared to FPS in the 2-dimensional Styblinksi-Tang system, (ii) systematically lowers prediction errors for equilibrium as well as strained structures in MD17, and (iii) systematically decreases prediction error variances across all of the MD17 configuration spaces. These results suggest that gradient-aware sampling methods hold great promise as effective training set selection tools, and that naive use of FPS may result in imbalanced training and inconsistent prediction outcomes.
- Abstract(参考訳): スマートトレーニングセットの選択手順は、データニーズの削減を可能にし、化学に関連する機械学習問題の予測ロバスト性を改善する。
分子の配置空間を効率的にサンプリングするための分子力ノルムを活用するFPS(Furthest Point Sampling)の単純な拡張であるGGFPS(Gradient Guided Furthest Point Sampling)を導入する。
トイシステム(スチブリンスキー・タン関数)とMD17データセットからの分子動力学軌道の数値的証拠が提示される。
FPSと一様サンプリングと比較すると,GGFPSを用いた場合,データ効率とロバスト性は優れていた。
MD17データの分布分析は、FPSが系統的にアンダーサンプル平衡測度を示し、緩和された構造に対する大きな試験誤差をもたらすことを示唆している。
GGFPSはこのアーティファクトを治し
i)2次元Styblinksi-TangシステムにおけるFPSと比較して,予測精度を犠牲にすることなく,トレーニングコストを最大2倍に削減することができる。
(二)MD17のひずみ構造と平衡の予測誤差を系統的に低減し、
3)全てのMD17構成空間における予測誤差のばらつきを系統的に低減する。
これらの結果から, 勾配対応サンプリング手法は効果的なトレーニングセット選択ツールとして大きな可能性を秘めており, FPSの使用が不均衡なトレーニングや一貫性のない予測結果をもたらす可能性が示唆された。
関連論文リスト
- Density-Aware Farthest Point Sampling [2.9434930072968584]
本稿では,新しいサンプリング手法であるDA-FPS(Density-Aware Farthest Point Smpling)を紹介する。
DA-FPSは重み付き充填距離をデータ駆動で推定するための近似最小値を提供する。
その結果, DA-FPSは, 他のサンプリング手法と比較して平均絶対誤差を著しく低減することがわかった。
論文 参考訳(メタデータ) (2025-09-16T16:19:14Z) - A Spatio-Temporal Graph Neural Networks Approach for Predicting Silent Data Corruption inducing Circuit-Level Faults [5.2974276480448195]
機能テスト SDE関連の障害をシミュレートするには費用がかかる。
長周期断層衝突確率の高速かつ高精度な予測のための統合時間グラフ畳み込みネットワーク(ST-GCN)を提案する。
論文 参考訳(メタデータ) (2025-09-08T02:23:51Z) - Efficient Federated Learning with Heterogeneous Data and Adaptive Dropout [62.73150122809138]
Federated Learning(FL)は、複数のエッジデバイスを使用したグローバルモデルの協調トレーニングを可能にする、有望な分散機械学習アプローチである。
動的不均一モデルアグリゲーション(FedDH)と適応ドロップアウト(FedAD)の2つの新しい手法を備えたFedDHAD FLフレームワークを提案する。
これら2つの手法を組み合わせることで、FedDHADは精度(最大6.7%)、効率(最大2.02倍高速)、コスト(最大15.0%小型)で最先端のソリューションを大幅に上回っている。
論文 参考訳(メタデータ) (2025-07-14T16:19:00Z) - Inference-Time Scaling of Diffusion Language Models with Particle Gibbs Sampling [70.8832906871441]
我々は、モデルを再訓練することなく、所望の報酬に向けて世代を操る方法を研究する。
従来の手法では、通常は1つの認知軌道内でサンプリングやフィルタを行い、軌道レベルの改善なしに報酬をステップバイステップで最適化する。
本稿では,拡散言語モデル(PG-DLM)の粒子ギブスサンプリングについて紹介する。
論文 参考訳(メタデータ) (2025-07-11T08:00:47Z) - Gradient-Optimized Fuzzy Classifier: A Benchmark Study Against State-of-the-Art Models [0.0]
本稿では,複数の最先端機械学習モデルに対して,GF(Gradient-d Fuzzy Inference System)の性能ベンチマークを行った。
その結果、GFモデルが競争力を発揮し、いくつかのケースでは、高い精度と極めて低いトレーニング時間を維持しながら、分類精度が優れていることが示された。
これらの知見は、教師付き学習タスクにおけるより複雑なディープラーニングモデルに対する解釈可能、効率的、適応可能な代替手段として、勾配最適化ファジィシステムの可能性を支持する。
論文 参考訳(メタデータ) (2025-04-22T20:47:06Z) - BO-SA-PINNs: Self-adaptive physics-informed neural networks based on Bayesian optimization for automatically designing PDE solvers [13.048817629665649]
物理インフォームドニューラルネットワーク(PINN)は偏微分方程式(PDE)の解法として一般的な方法である
PINNは、ネットワークのハイパーパラメータ、サンプリング方法、異なるPDEに対する損失関数重み付けを専用の手動で修正する必要がある。
この問題を軽減するため,BO-SA-PINNと呼ばれる汎用多段階フレームワークを提案する。
論文 参考訳(メタデータ) (2025-04-14T02:07:45Z) - SGM-PINN: Sampling Graphical Models for Faster Training of Physics-Informed Neural Networks [4.262342157729123]
SGM-PINNは物理情報ニューラルネットワーク(PINN)のトレーニング効率を向上させるグラフベースの重要度サンプリングフレームワークである
提案手法の利点を実証し,従来の最先端サンプリング手法と比較して3倍の収束性を実現した。
論文 参考訳(メタデータ) (2024-07-10T04:31:50Z) - Machine Learning Force Fields with Data Cost Aware Training [94.78998399180519]
分子動力学(MD)シミュレーションを加速するために機械学習力場(MLFF)が提案されている。
最もデータ効率のよいMLFFであっても、化学精度に達するには数百フレームの力とエネルギーのラベルが必要になる。
我々は、安価な不正確なデータと高価な正確なデータの組み合わせを利用して、MLFFのデータコストを下げる多段階計算フレームワークASTEROIDを提案する。
論文 参考訳(メタデータ) (2023-06-05T04:34:54Z) - Sample-Efficient Optimisation with Probabilistic Transformer Surrogates [66.98962321504085]
本稿では,ベイズ最適化における最先端確率変換器の適用可能性について検討する。
トレーニング手順と損失定義から生じる2つの欠点を観察し、ブラックボックス最適化のプロキシとして直接デプロイすることを妨げる。
1)非一様分散点を前処理するBO調整トレーニング,2)予測性能を向上させるために最適な定常点をフィルタする新しい近似後正則整定器トレードオフ精度と入力感度を導入する。
論文 参考訳(メタデータ) (2022-05-27T11:13:17Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。