論文の概要: CrystalXRD-Bench: Benchmarking Vision-Language Models for XRD Peak Indexing Across Diverse Crystalline Materials
- arxiv url: http://arxiv.org/abs/2605.29446v1
- Date: Thu, 28 May 2026 06:39:45 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-30 02:45:55.859924
- Title: CrystalXRD-Bench: Benchmarking Vision-Language Models for XRD Peak Indexing Across Diverse Crystalline Materials
- Title(参考訳): CrystalXRD-Bench:XRDピークインデクシングのためのベンチマークビジョンランゲージモデル
- Authors: Chengliang Xu, Xiaogang Li, Peiyao Xiao, Beng Wang, Hu Wei, Bing Zhao,
- Abstract要約: パウダーXRDパターンからのミラーインデックス識別には、既存のマルチモーダルベンチマークで検証されていない機能が必要である。
本稿では,10の公開結晶データベースから構築した250サンプルベンチマークであるCrystalXRD-Benchを紹介する。
- 参考スコア(独自算出の注目度): 7.502120644952225
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Miller-index identification from powder XRD patterns requires capabilities untested by existing multimodal benchmarks: the model must read a narrow peak location from a rendered scientific curve and then connect that observation to multi-step crystallographic reasoning. We introduce CrystalXRD-Bench, a 250-sample benchmark built from 10 public crystallographic databases for a single task: recover the full set of HKLs contributing to the highest-intensity peak in an XRD pattern. Each sample pairs the rendered XRD image with the source CIF text and chemical formula, so visual extraction errors and reasoning errors can be examined side by side. We evaluate seven vision-language models. The best Jaccard score is 0.5888 (GPT-5.4) with an exact-match rate of 37.6%, yet six of seven models remain below Jaccard 0.50; the task is far from solved. Error patterns vary systematically: double-peak cases are especially brittle, recall-heavy models gain coverage by over-predicting HKLs, and access to CIF text does not close the gap in crystallographic calculation. Alongside model rankings, the benchmark identifies the conditions under which current VLMs fail on quantitative scientific figures. All data and evaluation code will be publicly available.
- Abstract(参考訳): 粉体XRDパターンからのミラー・インデックスの同定には、既存のマルチモーダルベンチマークでは証明されていない能力が必要である:モデルは、レンダリングされた科学曲線から狭いピーク位置を読み取って、その観測を多段階の結晶学的推論に結びつける必要がある。
我々は,10の公開結晶データベースから構築された250サンプルベンチマークであるCrystalXRD-Benchを紹介した。
各サンプルは、レンダリングされたXRD画像をソースCIFテキストと化学式とペアリングすることにより、視覚的抽出誤差と推論誤差を並べて調べることができる。
7つの視覚言語モデルを評価する。
最高のジャカードスコアは0.5888(GPT-5.4)で、正確なマッチレートは37.6%だが、ジャカード0.50以下では7モデルのうち6モデルが残っている。
ダブルピークのケースは特に脆く、リコール・ヘビーなモデルは過剰予測HKLによってカバーされ、CIFテキストへのアクセスは結晶計算のギャップを埋めない。
モデルランキングの他に、このベンチマークは、現在のVLMが定量的な科学的数値で失敗する条件を特定する。
データおよび評価コードは、すべて公開されます。
関連論文リスト
- Benchmarking and Evolving Reason-Reflect-Rectify for Reflective Visual Generation [65.7390808636333]
マルチラウンド・リフレクティブ・ビジュアル・ジェネレーション(RVG)を実現するためのコア・フレームワークとしてReason-Reflect-Rectify(R3)ループを形式化する。
R3-Benchは600以上のエキスパートアノテーション付きインスタンスのベンチマークで、反復的推論と修正機能を定量化します。
実験の結果、R3-RefinerはR3-Benchを大幅に改善した。
論文 参考訳(メタデータ) (2026-05-19T10:24:31Z) - CUJBench: Benchmarking LLM-Agent on Cross-Modal Failure Diagnosis from Browser to Backend [2.9612444540570113]
診断フレーミングにおけるブラウザ可視性障害証拠とバックエンド可観測性を組み合わせた最初のベンチマークであるCUJBenchを提案する。
このベンチマークでは、全体的な精度は19.7%、天井は52%、飽和度よりかなり低い。
論文 参考訳(メタデータ) (2026-04-25T22:10:53Z) - XDXD: End-to-end crystal structure determination with low resolution X-ray diffraction [22.50406008374185]
我々は,低解像度単結晶X線回折データから直接完全な原子モデルを決定するための,最初のエンドツーエンドディープラーニングフレームワークであるXDXDを紹介する。
我々のモデルは、2.0AA解像度に制限されたデータを持つ構造に対して70.4%の一致率を達成し、根平均二乗誤差(RMSE)は0.05未満である。
論文 参考訳(メタデータ) (2025-10-20T15:50:21Z) - FLUX-Reason-6M & PRISM-Bench: A Million-Scale Text-to-Image Reasoning Dataset and Comprehensive Benchmark [62.2297310186354]
FLUX-Reason-6Mは600万の高品質FLUX生成画像と2000万のバイリンガル(英語と中国語)記述からなる巨大なデータセットである。
PRISM-Benchは、7つの異なるトラックを持つ新しい評価標準を提供する。
論文 参考訳(メタデータ) (2025-09-11T17:59:59Z) - DyePack: Provably Flagging Test Set Contamination in LLMs Using Backdoors [52.85182605005619]
トレーニング中にベンチマークテストセットを使用したモデルを識別するためにバックドアアタックを利用するフレームワークであるDiePackを紹介します。
銀行が染料パックにお金を混ぜて強盗をマークするのと同じように、DiePackはバックドアのサンプルとテストデータとを混ぜて、その上で訓練されたモデルのフラグを立てる。
我々はDiePackを3つのデータセットにわたる5つのモデルで評価し、複数の選択とオープンな生成タスクの両方をカバーした。
論文 参考訳(メタデータ) (2025-05-29T02:22:14Z) - CorBenchX: Large-Scale Chest X-Ray Error Dataset and Vision-Language Model Benchmark for Report Error Correction [11.731590131260424]
CorBenchXは胸部X線レポートにおける自動エラー検出と修正のためのスイートである。
まず,26,326個の胸部X線誤差の大規模データセットを合成した。
オープンソースとクローズドなビジョン言語モデルの両方をベンチマークします。
論文 参考訳(メタデータ) (2025-05-17T15:39:39Z) - End-to-End Crystal Structure Prediction from Powder X-Ray Diffraction [37.563382606039006]
本研究では,PXRDを用いた結晶構造予測モデルであるXtalNetを紹介する。
XtalNetはPXRDを付加条件として利用し、曖昧さを排除し、単位細胞に最大400個の原子を持つ複雑な有機構造を生成する。
XtalNetは、条件付き結晶構造予測タスクにおいて、hMOF-100とhMOF-400において、90.2%と79%のトップ10マッチングレートを達成する。
論文 参考訳(メタデータ) (2024-01-08T12:50:17Z) - Chest x-ray automated triage: a semiologic approach designed for
clinical implementation, exploiting different types of labels through a
combination of four Deep Learning architectures [83.48996461770017]
本研究では,異なる畳み込みアーキテクチャの後期融合に基づく深層学習手法を提案する。
公開胸部x線画像と機関アーカイブを組み合わせたトレーニングデータセットを4つ構築した。
4つの異なるディープラーニングアーキテクチャをトレーニングし、それらのアウトプットとレイトフュージョン戦略を組み合わせることで、統一されたツールを得ました。
論文 参考訳(メタデータ) (2020-12-23T14:38:35Z) - TACRED Revisited: A Thorough Evaluation of the TACRED Relation
Extraction Task [80.38130122127882]
TACREDはリレーショナル抽出(RE)において最も大きく、最も広く使われているクラウドソースデータセットの1つである
パフォーマンスの天井に到達したのか、改善の余地はあるのか?
ラベルエラーは絶対F1テストエラーの8%を占めており、例の50%以上を可逆化する必要がある。
論文 参考訳(メタデータ) (2020-04-30T15:07:37Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。