論文の概要: Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials
- arxiv url: http://arxiv.org/abs/2603.12183v1
- Date: Thu, 12 Mar 2026 17:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-03-13 14:46:26.246593
- Title: Proof-Carrying Materials: Falsifiable Safety Certificates for Machine-Learned Interatomic Potentials
- Title(参考訳): 模擬材料:機械学習型原子間ポテンシャルの安全性証明
- Authors: Abhinaba Basu, Pavan Chakraborty,
- Abstract要約: 安定フィルタとして用いられる1つのMLIPは、25,000の材料ベンチマークにおいて密度汎関数安定材料のうち93%を欠いていることを示す。
我々は,PCM(Proof-Carrying Materials)がこのギャップを,空間横断の対角的ファルシフィケーション,95%の信頼区間による構成封筒の洗練,Lean 4の正式な認証の3段階で埋めることを示した。
熱電スクリーニングのケーススタディでは、PCMが監査したプロトコルが、シングルMLIPスクリーニングで欠落した62の安定物質を発見し、発見効率は25%向上した。
- 参考スコア(独自算出の注目度): 0.0
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Machine-learned interatomic potentials (MLIPs) are deployed for high-throughput materials screening without formal reliability guarantees. We show that a single MLIP used as a stability filter misses 93% of density functional theory (DFT)-stable materials (recall 0.07) on a 25,000-material benchmark. Proof-Carrying Materials (PCM) closes this gap through three stages: adversarial falsification across compositional space, bootstrap envelope refinement with 95% confidence intervals, and Lean 4 formal certification. Auditing CHGNet, TensorNet and MACE reveals architecture-specific blind spots with near-zero pairwise error correlations (r <= 0.13; n = 5,000), confirmed by independent Quantum ESPRESSO validation (20/20 converged; median DFT/CHGNet force ratio 12x). A risk model trained on PCM-discovered features predicts failures on unseen materials (AUC-ROC = 0.938 +/- 0.004) and transfers across architectures (cross-MLIP AUC-ROC ~ 0.70; feature importance r = 0.877). In a thermoelectric screening case study, PCM-audited protocols discover 62 additional stable materials missed by single-MLIP screening - a 25% improvement in discovery yield.
- Abstract(参考訳): 機械学習型原子間電位(MLIP)は、正式な信頼性を保証することなく、高スループット材料スクリーニングのためにデプロイされる。
安定フィルタとして用いられる1つのMLIPは,密度汎関数理論(DFT)安定材料(0.07)の93%を25,000材料ベンチマークで失っていることを示す。
Proof-Carrying Materials (PCM) はこのギャップを,構成空間を越えた対角的ファルシフィケーション,95%の信頼区間によるブートストラップ封筒の洗練,Lean 4 の公式認定の3段階で埋める。
CHGNet、TensorNet、MACEを監査した結果、アーキテクチャ固有の盲点(r <= 0.13; n = 5,000)が、独立量子ESPRESSO検証(20/20収束、中央DFT/CHGNet力比12x)によって確認された。
PCMで訓練されたリスクモデルは、見知らぬ材料(AUC-ROC = 0.938 +/- 0.004)の故障を予測し、アーキテクチャ(MLIP AUC-ROC ~ 0.70; 特徴重要度 r = 0.877)間で転送する。
熱電スクリーニングのケーススタディでは、PCMが監査したプロトコルが、シングルMLIPスクリーニングで欠落した62の安定物質を発見し、発見効率は25%向上した。
関連論文リスト
- Breaking the Geometric Bottleneck: Contrastive Expansion in Asymmetric Cross-Modal Distillation [0.0]
グローバルビジョン変換器をキャパシティ制約CNNに蒸留する際の次元崩壊現象について検討する。
厳密な集中型SVDとエフェクトランクを用いることで、CIFAR-10上でキャパシティ非依存の位相遷移を示す。
さらに、DINOv2の均一な幾何は部分的に崩壊を防ぐが、コントラスト展開はCNNのトポロジカルキャパシティ限界に達する普遍的な要件であることを示す。
論文 参考訳(メタデータ) (2026-03-05T05:37:51Z) - Information Fidelity in Tool-Using LLM Agents: A Martingale Analysis of the Model Context Protocol [69.11739400975445]
モデルコンテキストプロトコル(MCP)エージェントにおけるエラー蓄積を解析するための最初の理論的枠組みを紹介する。
累積歪みが線形成長と高確率偏差を$O(sqrtT)$で表すことを示す。
主な発見は、意味重み付けは歪みを80%減らし、周期的再接地は、エラー制御の約9ステップごとに十分である。
論文 参考訳(メタデータ) (2026-02-10T21:08:53Z) - Feature-Space Adversarial Robustness Certification for Multimodal Large Language Models [59.6491828112519]
MLLM(Multimodal large language model)は、様々なアプリケーションにまたがる強力な機能を示す。
MLLMは、その特徴表現を歪め、誤った予測を誘発する敵の摂動に弱い。
本稿では,MLLMの特徴表現レベルにおいて,信頼性の高いロバスト性保証を提供する汎用フレームワークであるFeature-space Smoothing(FS)を提案する。
論文 参考訳(メタデータ) (2026-01-22T18:52:21Z) - Predictive Coding and Information Bottleneck for Hallucination Detection in Large Language Models [0.8552050317027305]
大規模言語モデル(LLM)における幻覚は、高レベルのデプロイメントにとって重要な障壁である。
ニューロサイエンスにインスパイアされた信号設計と教師付き機械学習を組み合わせたハイブリッド検出フレームワークである[Model Name]を紹介する。
論文 参考訳(メタデータ) (2026-01-22T05:00:21Z) - Enhancing Multi-Label Thoracic Disease Diagnosis with Deep Ensemble-Based Uncertainty Quantification [1.2461503242570642]
このプロジェクトは、堅牢な不確実性定量化(UQ)を、NIH ChestX-ray14データセット上の14の一般的な胸部疾患のための高性能な診断プラットフォームに統合する。
初期のアーキテクチャ開発ではモンテカルロ・ドロップアウト(MCD)を使用した性能とキャリブレーションが安定せず、ECEは0.7588であった。
この結果、Deep Ensemble (DE) は性能を安定させ、信頼性を向上し、受信器操作特性曲線 (AUROC) 平均面積 0.8559 と F1スコア 0.3857 を達成した。
論文 参考訳(メタデータ) (2025-11-24T07:20:40Z) - CONFIDE: Hallucination Assessment for Reliable Biomolecular Structure Prediction and Design [46.12506067241116]
本稿では,位相的フラストレーションを定量化する自己評価尺度であるCODE(Chain of Diffusion Embeddings)を提案する。
エネルギー的およびトポロジ的視点を組み合わせた統合評価フレームワークであるCONFIDEを提案する。
データ駆動の埋め込みと理論的な洞察を組み合わせることで、CODEとConFIDEは、幅広い生体分子システムで既存の指標より優れています。
論文 参考訳(メタデータ) (2025-11-20T03:38:46Z) - Identity-Link IRT for Label-Free LLM Evaluation: Preserving Additivity in TVD-MI Scores [3.959606869996232]
本報告では,TVD-MIの2次試行平均値が,非線形リンク関数を使わずに項目応答理論(IRT)に適合する付加的構造で中心確率スコアを得ることを示す。
Giniエントロピーからこのクリップ付き線形評価を導出し、境界飽和を扱うボックス制約最小二乗の定式化を導出する。
論文 参考訳(メタデータ) (2025-10-16T17:59:25Z) - Probabilistic Consensus through Ensemble Validation: A Framework for LLM Reliability [0.0]
大規模言語モデル(LLM)は、テキスト生成の大幅な進歩を示しているが、自律的なデプロイメントに必要な信頼性を欠いていることが多い。
本稿では,モデルコンセンサスを通じて,コンテンツ検証のためのアンサンブル手法を再利用する新しいフレームワークを提案する。
事実の精度と因果一貫性を必要とする78症例を対象としたテストでは, 精度が73.1%から93.9%に向上した。
論文 参考訳(メタデータ) (2024-11-10T17:32:16Z) - Accurate and Reliable Predictions with Mutual-Transport Ensemble [46.368395985214875]
Kullback-Leibler (KL) を用いた共学習補助モデルの提案とクロスエントロピー損失の適応的正則化
MTEは精度と不確実性の両方を同時に向上させることができる。
例えば、CIFAR-100データセットでは、我々のResNet34/50上のMTEメソッドは、従来の最先端の手法に比べて大幅に改善された。
論文 参考訳(メタデータ) (2024-05-30T03:15:59Z) - Conservative Prediction via Data-Driven Confidence Minimization [70.93946578046003]
機械学習の安全性クリティカルな応用においては、モデルが保守的であることが望ましいことが多い。
本研究では,不確実性データセットに対する信頼性を最小化するデータ駆動信頼性最小化フレームワークを提案する。
論文 参考訳(メタデータ) (2023-06-08T07:05:36Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。