論文の概要: Leakage-Aware Bandgap Prediction on the JARVIS-DFT Dataset: A Phase-Wise Feature Analysis
- arxiv url: http://arxiv.org/abs/2512.19732v1
- Date: Wed, 17 Dec 2025 08:22:32 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-24 19:17:49.605069
- Title: Leakage-Aware Bandgap Prediction on the JARVIS-DFT Dataset: A Phase-Wise Feature Analysis
- Title(参考訳): JARVIS-DFTデータセットにおける漏洩型バンドギャップ予測:位相幅特性解析
- Authors: Gaurav Kumar Sharma,
- Abstract要約: JARVIS-DFTバンドギャップデータセットの体系的解析を行う。
有効質量などのバンド構造情報を不注意にエンコードする記述子を同定・除去する。
このプロセスにより、2280の材料の硬化した漏れ制御されたサブセットが得られる。
- 参考スコア(独自算出の注目度): 0.0
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: In this study, we perform a systematic analysis of the JARVIS-DFT bandgap dataset and identify and remove descriptors that may inadvertently encode band-structure information, such as effective masses. This process yields a curated, leakage-controlled subset of 2280 materials. Using this dataset, a three-phase modeling framework is implemented that incrementally incorporates basic physical descriptors, engineered features, and compositional attributes. The results show that tree-based models achieve R2 values of approximately 0.88 to 0.90 across all phases, indicating that expanding the descriptor space does not substantially improve predictive accuracy when leakage is controlled. SHAP analysis consistently identifies the dielectric tensor components as the dominant contributors. This work provides a curated dataset and baseline performance metrics for future leakage-aware bandgap prediction studies.
- Abstract(参考訳): 本研究では,JARVIS-DFTバンドギャップデータセットの体系的解析を行い,有効質量などのバンド構造情報を不注意にエンコードする記述子を同定・除去する。
このプロセスにより、2280の材料の硬化した漏れ制御されたサブセットが得られる。
このデータセットを使用して、基本的な物理記述子、エンジニアリングされた特徴、構成属性を漸進的に組み込む3フェーズモデリングフレームワークが実装されている。
その結果,木系モデルでは全位相にわたって約0.88~0.90のR2値が得られており,ディスクリプタ空間の拡大はリーク制御時の予測精度を著しく向上しないことがわかった。
SHAP解析は、誘電体テンソル成分を支配的コントリビュータとして一貫して特定する。
この研究は、将来の漏洩認識バンドギャップ予測研究のために、キュレートされたデータセットとベースラインパフォーマンスメトリクスを提供する。
関連論文リスト
- InJecteD: Analyzing Trajectories and Drift Dynamics in Denoising Diffusion Probabilistic Models for 2D Point Cloud Generation [48.55037712252843]
InJecteDは拡散確率モデル(DDPM)を解釈するフレームワーク
このフレームワークをDatasaurus Dozen bullseye, dino, circleの3つのデータセットに適用する。
提案手法は, 変位, 速度, クラスタリング, ドリフト場力学などの軌道特性を定量的に評価する。
論文 参考訳(メタデータ) (2025-09-09T14:53:19Z) - Evaluating Ensemble and Deep Learning Models for Static Malware Detection with Dimensionality Reduction Using the EMBER Dataset [0.0]
本研究では,EMBERデータセットを用いた静的マルウェア検出における機械学習アルゴリズムの有効性について検討した。
LightGBM, XGBoost, CatBoost, Random Forest, Extra Trees, HistGradientBoosting, k-Nearest Neighbors (KNN), TabNetの8つの分類モデルを評価した。
モデルは精度、精度、リコール、F1スコア、AUCに基づいて評価され、予測性能とロバスト性の両方を調べる。
論文 参考訳(メタデータ) (2025-07-22T18:45:10Z) - A Data-Driven Machine Learning Approach for Predicting Axial Load Capacity in Steel Storage Rack Columns [0.0]
冷間成形鋼構造物の軸受荷重特性を予測するための機械学習(ML)フレームワークを提案する。
この方法論は堅牢なモデル選択と解釈可能性を強調し、従来の分析手法の限界に対処する。
論文 参考訳(メタデータ) (2025-07-22T10:16:53Z) - Crucial-Diff: A Unified Diffusion Model for Crucial Image and Annotation Synthesis in Data-scarce Scenarios [65.97836905826145]
医療、産業、自動運転といったさまざまなシナリオにおけるデータの不足は、モデルの過度な適合とデータセットの不均衡につながる。
重要なサンプルを合成するドメインに依存しないフレームワークであるCrucial-Diffを提案する。
我々のフレームワークは多様な高品質なトレーニングデータを生成し、ピクセルレベルのAPは83.63%、F1-MAXは78.12%である。
論文 参考訳(メタデータ) (2025-07-14T04:41:38Z) - Flow Exporter Impact on Intelligent Intrusion Detection Systems [0.0]
高品質なデータセットは、機械学習モデルのトレーニングに不可欠である。
特徴発生の不整合は、脅威検出の精度と信頼性を妨げる。
本稿では,侵入検知のための機械学習モデルの性能と信頼性に及ぼす流量輸出機の影響について検討する。
論文 参考訳(メタデータ) (2024-12-18T16:38:20Z) - DAGnosis: Localized Identification of Data Inconsistencies using
Structures [73.39285449012255]
機械学習モデルを確実に使用するためには、デプロイメント時のデータの不整合の特定と適切な処理が不可欠である。
我々は,有向非巡回グラフ(DAG)を用いて,トレーニングセットの特徴分布と非依存性を構造として符号化する。
我々の手法はDAGnosisと呼ばれ、これらの構造的相互作用を利用して、価値があり洞察に富んだデータ中心の結論をもたらす。
論文 参考訳(メタデータ) (2024-02-26T11:29:16Z) - Fuzzy Attention Neural Network to Tackle Discontinuity in Airway
Segmentation [67.19443246236048]
気道セグメンテーションは肺疾患の検査、診断、予後に重要である。
いくつかの小型の気道支線(気管支や終端など)は自動セグメンテーションの難しさを著しく増す。
本稿では,新しいファジィアテンションニューラルネットワークと包括的損失関数を備える,気道セグメンテーションの効率的な手法を提案する。
論文 参考訳(メタデータ) (2022-09-05T16:38:13Z) - Generalizing electrocardiogram delineation: training convolutional
neural networks with synthetic data augmentation [63.51064808536065]
ECGのデライン化のための既存のデータベースは小さく、サイズやそれらが表す病態の配列に不足している。
まず、原データベースから抽出した基本セグメントのプールを与えられたECGトレースを確率的に合成し、その整合性のある合成トレースに配置するための一連のルールを考案した。
第二に、2つの新しいセグメンテーションに基づく損失関数が開発され、これは、正確な数の独立構造の予測を強制し、サンプル数の削減に焦点をあてて、より密接なセグメンテーション境界を創出することを目的としている。
論文 参考訳(メタデータ) (2021-11-25T10:11:41Z) - Controlling for sparsity in sparse factor analysis models: adaptive
latent feature sharing for piecewise linear dimensionality reduction [2.896192909215469]
本稿では,現在潜伏している特徴分解技術の鍵となる限界に対処できる,シンプルでトラクタブルな特徴割り当てモデルを提案する。
適応型因子分析(aFA)と適応型確率的原理成分分析(aPPCA)を応用し,柔軟な構造発見と次元減少を実現する。
APPCAとaFAは、生のMNISTに適用した場合と、オートエンコーダの特徴を解釈する場合の両方において、高いレベルの特徴を推測できることを示す。
論文 参考訳(メタデータ) (2020-06-22T16:09:11Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。