論文の概要: Stress-Testing Multimodal Foundation Models for Crystallographic Reasoning
- arxiv url: http://arxiv.org/abs/2506.13051v1
- Date: Mon, 16 Jun 2025 02:40:33 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-17 17:28:47.382668
- Title: Stress-Testing Multimodal Foundation Models for Crystallographic Reasoning
- Title(参考訳): 結晶共鳴のための応力試験マルチモーダル基礎モデル
- Authors: Can Polat, Hasan Kurban, Erchin Serpedin, Mustafa Kurban,
- Abstract要約: 結晶学的推論の基礎モデルを評価するには、物理的な制約を課しながら一般化挙動を分離するベンチマークが必要である。
本研究では,ストレステスト型マルチモーダル生成モデルに対する2つの物理的基盤評価プロトコルを備えたマルチスケールマルチクリスタルデータセットを提案する。
- 参考スコア(独自算出の注目度): 2.172419551358714
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Evaluating foundation models for crystallographic reasoning requires benchmarks that isolate generalization behavior while enforcing physical constraints. This work introduces a multiscale multicrystal dataset with two physically grounded evaluation protocols to stress-test multimodal generative models. The Spatial-Exclusion benchmark withholds all supercells of a given radius from a diverse dataset, enabling controlled assessments of spatial interpolation and extrapolation. The Compositional-Exclusion benchmark omits all samples of a specific chemical composition, probing generalization across stoichiometries. Nine vision--language foundation models are prompted with crystallographic images and textual context to generate structural annotations. Responses are evaluated via (i) relative errors in lattice parameters and density, (ii) a physics-consistency index penalizing volumetric violations, and (iii) a hallucination score capturing geometric outliers and invalid space-group predictions. These benchmarks establish a reproducible, physically informed framework for assessing generalization, consistency, and reliability in large-scale multimodal models. Dataset and code are available at https://github.com/KurbanIntelligenceLab/StressTestingMMFMinCR.
- Abstract(参考訳): 結晶学的推論の基礎モデルの評価には、物理的な制約を課しながら一般化挙動を分離するベンチマークが必要である。
本研究では,ストレステスト型マルチモーダル生成モデルに対する2つの物理的基盤評価プロトコルを備えたマルチスケールマルチクリスタルデータセットを提案する。
Space-Exclusionベンチマークは、与えられた半径のすべてのスーパーセルを多様なデータセットから保持し、空間補間と外挿の制御を可能にする。
compositional-Exclusionベンチマークは、特定の化学組成のすべてのサンプルを省略し、ストーチオメトリーをまたいだ一般化を探索する。
9つの視覚-言語基盤モデルは、構造的アノテーションを生成するために結晶画像とテクスチャコンテキストで誘導される。
反応が評価される
(i)格子パラメータと密度の相対誤差
二 ボリューム違反を罰する物理一致指数
三 幾何学的外接点と無効な空間群予測を採点した幻覚スコア。
これらのベンチマークは、大規模マルチモーダルモデルにおける一般化、一貫性、信頼性を評価するための再現可能で物理的に情報を得たフレームワークを確立する。
データセットとコードはhttps://github.com/KurbanIntelligenceLab/StressTestingMMFMinCRで入手できる。
関連論文リスト
- Spatial Reasoning with Denoising Models [49.83744014336816]
本稿では,連続変数の集合に対する推論を行うためのフレームワークを提案する。
初めて、その生成順序をデノナイジングネットワーク自体によって予測できる。
これらの結果から,特定の推論タスクの精度を1%から50%に向上させることができる。
論文 参考訳(メタデータ) (2025-02-28T14:08:30Z) - Geometry Matters: Benchmarking Scientific ML Approaches for Flow Prediction around Complex Geometries [23.111935712144277]
複雑な幾何学体を取り巻く流体力学の迅速かつ正確なシミュレーションは、様々な工学的・科学的応用において重要である。
科学機械学習(SciML)はかなりの可能性を示してきたが、この分野のほとんどの研究は単純な幾何学に限られている。
本稿では,複雑な地形上での流動予測のための多種多様なSciMLモデルのベンチマークにより,このギャップを解消する。
論文 参考訳(メタデータ) (2024-12-31T00:23:15Z) - Fundamental limits of community detection from multi-view data:
multi-layer, dynamic and partially labeled block models [7.778975741303385]
現代のネットワーク分析におけるマルチビューデータのコミュニティ検出について検討する。
我々は,データと潜在パラメータ間の相互情報を特徴付ける。
コミュニティ検出のための近似メッセージパッシングに基づく反復アルゴリズムを提案する。
論文 参考訳(メタデータ) (2024-01-16T07:13:32Z) - RGM: A Robust Generalizable Matching Model [49.60975442871967]
RGM(Robust Generalist Matching)と呼ばれる疎密マッチングのための深部モデルを提案する。
合成トレーニングサンプルと実世界のシナリオのギャップを狭めるために、我々は、疎対応基盤真理を持つ新しい大規模データセットを構築した。
さまざまな密集したスパースなデータセットを混ぜ合わせることができ、トレーニングの多様性を大幅に改善しています。
論文 参考訳(メタデータ) (2023-10-18T07:30:08Z) - Designing a Hybrid Neural System to Learn Real-world Crack Segmentation
from Fractal-based Simulation [7.0156884721768575]
フラクタルとそれに対応するフルアノテートクラックデータセットに基づく高忠実度クラックグラフィーシミュレータを提案する。
次に、シミュレーションから一般化可能な表現を学習するシステムで後者を補完する。
最後に、シミュレーションを実際のギャップにブリッジすることで、どのように異なる設計選択が共生的であるかを実証的に強調し、最終的に、我々の導入したシステムが現実世界のひび割れのセグメンテーションを効果的に処理できることを実証する。
論文 参考訳(メタデータ) (2023-09-18T10:13:03Z) - Challenges to Evaluating the Generalization of Coreference Resolution Models: A Measurement Modeling Perspective [69.50044040291847]
本稿では, マルチデータセット評価が, 正確に測定されている要因を混同するリスクについて述べる。
これにより、これらの評価からより一般化可能な結論を引き出すのが難しくなる。
論文 参考訳(メタデータ) (2023-03-16T05:32:02Z) - Generalization Metrics for Practical Quantum Advantage in Generative
Models [68.8204255655161]
生成モデリングは量子コンピュータにとって広く受け入れられている自然のユースケースである。
我々は,アルゴリズムの一般化性能を計測して,生成モデリングのための実用的な量子優位性を探索する,単純で曖昧な手法を構築した。
シミュレーションの結果、我々の量子にインスパイアされたモデルは、目に見えない、有効なサンプルを生成するのに、最大で68倍の費用がかかります。
論文 参考訳(メタデータ) (2022-01-21T16:35:35Z) - Point Cloud Failure Criterion for Composites using k-Nearest Neighbor
Classification [0.0]
本稿では, 故障表面データの点雲を用いて, 有限要素解析中にクエリ可能な故障表面データの点雲を生成する方法を示す。
一方向合成を用いた線形で弾性的で静的な有限要素の例は、フレームワークを効果的に、効率的に生成し、使用することができることを示している。
論文 参考訳(メタデータ) (2021-06-04T20:49:56Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。