論文の概要: Cutting Through the Noise: On-the-fly Outlier Detection for Robust Training of Machine Learning Interatomic Potentials
- arxiv url: http://arxiv.org/abs/2602.08849v1
- Date: Mon, 09 Feb 2026 16:16:22 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-10 20:26:25.350518
- Title: Cutting Through the Noise: On-the-fly Outlier Detection for Robust Training of Machine Learning Interatomic Potentials
- Title(参考訳): ノイズを通したカット:機械学習の原子間ポテンシャルのロバストトレーニングのためのオンザフライ・アウトリア検出
- Authors: Terry C. W. Lam, Niamh O'Neill, Christoph Schran, Lars L. Schaaf,
- Abstract要約: そこで本研究では,新たな基準計算を必要とせず,ノイズの多いサンプルを自動的にダウンウェイトするオンザフライ異常検出手法を提案する。
提案手法は,繰り返し改良ベースラインの性能の過度な適合を防止し,オーバーヘッドを大幅に低減することを示す。
本研究では,SPICEデータセット上で有機化学の基礎モデルをトレーニングすることにより,そのスケーラビリティを検証し,エネルギーエラーを3倍に削減する。
- 参考スコア(独自算出の注目度): 0.6999740786886536
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: The accuracy of machine learning interatomic potentials suffers from reference data that contains numerical noise. Often originating from unconverged or inconsistent electronic-structure calculations, this noise is challenging to identify. Existing mitigation strategies such as manual filtering or iterative refinement of outliers, require either substantial expert effort or multiple expensive retraining cycles, making them difficult to scale to large datasets. Here, we introduce an on-the-fly outlier detection scheme that automatically down-weights noisy samples, without requiring additional reference calculations. By tracking the loss distribution via an exponential moving average, this unsupervised method identifies outliers throughout a single training run. We show that this approach prevents overfitting and matches the performance of iterative refinement baselines with significantly reduced overhead. The method's effectiveness is demonstrated by recovering accurate physical observables for liquid water from unconverged reference data, including diffusion coefficients. Furthermore, we validate its scalability by training a foundation model for organic chemistry on the SPICE dataset, where it reduces energy errors by a factor of three. This framework provides a simple, automated solution for training robust models on imperfect datasets across dataset sizes.
- Abstract(参考訳): 機械学習の原子間ポテンシャルの精度は、数値ノイズを含む参照データに悩まされる。
しばしば、収束しない、あるいは矛盾しない電子構造計算に由来するため、このノイズを識別することは困難である。
手動フィルタリングやアウトリーチの反復改善といった既存の緩和戦略では、相当な専門的な努力や、複数の高価なリトレーニングサイクルが必要になるため、大規模なデータセットへのスケールアップが困難になる。
そこで本研究では,新たな参照計算を必要とせず,ノイズの多いサンプルを自動的に減量するオンザフライ・アウトリア検出手法を提案する。
指数移動平均による損失分布の追跡により、この教師なしの手法は、単一のトレーニング実行中における外れ値を特定する。
提案手法は,繰り返し改良ベースラインの性能の過度な適合を防止し,オーバーヘッドを大幅に低減することを示す。
本手法の有効性は,拡散係数を含む非収束参照データから,液体水の正確な物理観測値を回収することによって実証される。
さらに,SPICEデータセット上で有機化学の基礎モデルをトレーニングすることにより,そのスケーラビリティを検証し,エネルギー誤差を3倍に削減する。
このフレームワークは、データセットサイズにまたがる不完全なデータセット上の堅牢なモデルをトレーニングするための、シンプルで自動化されたソリューションを提供する。
関連論文リスト
- Data Curation Through the Lens of Spectral Dynamics: Static Limits, Dynamic Acceleration, and Practical Oracles [16.678827833121602]
大規模ニューラルモデルは、データプルーニング、合成データ生成、クロスモデル蒸留、人間からの強化学習(RLHF)、難易度に基づくサンプリングなど、ますます訓練されている。
我々は,データキュレーションをサンプリング分布の再重み付けとして定式化し,その効果をデータ誘導演算子の固有構造にマッピングする。
論文 参考訳(メタデータ) (2025-12-02T04:36:13Z) - Z-Error Loss for Training Neural Networks [0.0]
異常勾配を伝播することで、モデル性能と一般化を低下させることができる。
本稿では,Z-Error Lossを提案する。Z-Error Lossは,各バッチにおけるアウト・オブ・ディストリビューション(out-of-distribution)として認識されるデータポイントの寄与を隠蔽することにより,トレーニング中のアウトラヤの影響を最小限に抑える,統計的に原理化されたアプローチである。
論文 参考訳(メタデータ) (2025-06-02T18:35:30Z) - DispFormer: A Pretrained Transformer Incorporating Physical Constraints for Dispersion Curve Inversion [56.64622091009756]
本研究では、レイリー波位相と群分散曲線からプロファイルインバージョンを$v_s$とするトランスフォーマーベースのニューラルネットワークであるDispFormerを紹介する。
DispFormerは各期間に分散データを個別に処理し、ネットワークの変更やデータセットのトレーニングとテストの厳格な調整を必要とせずに、さまざまな長さを処理できる。
論文 参考訳(メタデータ) (2025-01-08T09:08:24Z) - SINDER: Repairing the Singular Defects of DINOv2 [61.98878352956125]
大規模なデータセットでトレーニングされたビジョントランスフォーマーモデルは、抽出したパッチトークンにアーティファクトを表示することが多い。
本稿では,小さなデータセットのみを用いて構造欠陥を補正するスムーズなスムーズな正規化を提案する。
論文 参考訳(メタデータ) (2024-07-23T20:34:23Z) - EntropyStop: Unsupervised Deep Outlier Detection with Loss Entropy [19.154826741973277]
ロスエントロピー (Loss Entropy) と呼ばれるゼロラベルのエントロピー距離を損失分布として提案する。
また、損失エントロピーが最大モデル検出能力を示す場合、トレーニングを停止する自動早期停止アルゴリズムEntropyStopを開発した。
論文 参考訳(メタデータ) (2024-05-21T05:17:43Z) - Stochastic Amortization: A Unified Approach to Accelerate Feature and Data Attribution [62.71425232332837]
雑音ラベル付きモデルを用いたトレーニングは安価で驚くほど効果的であることを示す。
このアプローチは、いくつかの特徴属性とデータ評価手法を著しく加速し、しばしば既存のアプローチよりも桁違いにスピードアップする。
論文 参考訳(メタデータ) (2024-01-29T03:42:37Z) - Noisy Correspondence Learning with Self-Reinforcing Errors Mitigation [63.180725016463974]
クロスモーダル検索は、実際は精力的な、十分に整合した大規模データセットに依存している。
我々は、新しい雑音対応学習フレームワーク、textbfSelf-textbfReinforcing textbfErrors textbfMitigation(SREM)を導入する。
論文 参考訳(メタデータ) (2023-12-27T09:03:43Z) - Boosting Differentiable Causal Discovery via Adaptive Sample Reweighting [62.23057729112182]
異なるスコアに基づく因果探索法は観測データから有向非巡回グラフを学習する。
本稿では,Reweighted Score関数ReScoreの適応重みを動的に学習することにより因果発見性能を向上させるためのモデルに依存しないフレームワークを提案する。
論文 参考訳(メタデータ) (2023-03-06T14:49:59Z) - Self-Supervised Training with Autoencoders for Visual Anomaly Detection [61.62861063776813]
我々は, 正規サンプルの分布を低次元多様体で支持する異常検出において, 特定のユースケースに焦点を当てた。
我々は、訓練中に識別情報を活用する自己指導型学習体制に適応するが、通常の例のサブ多様体に焦点をあてる。
製造領域における視覚異常検出のための挑戦的なベンチマークであるMVTec ADデータセットで、最先端の新たな結果を達成する。
論文 参考訳(メタデータ) (2022-06-23T14:16:30Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。