論文の概要: SPM-Bench: Benchmarking Large Language Models for Scanning Probe Microscopy
- arxiv url: http://arxiv.org/abs/2602.22971v1
- Date: Thu, 26 Feb 2026 13:08:56 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-27 18:41:22.69792
- Title: SPM-Bench: Benchmarking Large Language Models for Scanning Probe Microscopy
- Title(参考訳): SPM-Bench: プローブ顕微鏡のための大規模言語モデルのベンチマーク
- Authors: Peiyao Xiao, Xiaogang Li, Chengliang Xu, Jiayi Wang, Ben Wang, Zichao Chen, Zeyu Wang, Kejun Yu, Yueqian Chen, Xulin Liu, Wende Xiao, Bing Zhao, Hu Wei,
- Abstract要約: 走査型プローブ顕微鏡(SPM)に特化して設計されたPhDレベルのマルチモーダルベンチマークを提案する。
AGS(Anchor-Gated Sieve)技術を用いて,2023年から2025年にかけて発行されたarXivとジャーナル論文から高価値画像テキストペアを効率よく抽出する。
当社のパイプラインは,高データセットの純度を維持しながら,極端なトークン保存を実現しています。
- 参考スコア(独自算出の注目度): 12.070587084660096
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: As LLMs achieved breakthroughs in general reasoning, their proficiency in specialized scientific domains reveals pronounced gaps in existing benchmarks due to data contamination, insufficient complexity, and prohibitive human labor costs. Here we present SPM-Bench, an original, PhD-level multimodal benchmark specifically designed for scanning probe microscopy (SPM). We propose a fully automated data synthesis pipeline that ensures both high authority and low-cost. By employing Anchor-Gated Sieve (AGS) technology, we efficiently extract high-value image-text pairs from arXiv and journal papers published between 2023 and 2025. Through a hybrid cloud-local architecture where VLMs return only spatial coordinates "llbox" for local high-fidelity cropping, our pipeline achieves extreme token savings while maintaining high dataset purity. To accurately and objectively evaluate the performance of the LLMs, we introduce the Strict Imperfection Penalty F1 (SIP-F1) score. This metric not only establishes a rigorous capability hierarchy but also, for the first time, quantifies model "personalities" (Conservative, Aggressive, Gambler, or Wise). By correlating these results with model-reported confidence and perceived difficulty, we expose the true reasoning boundaries of current AI in complex physical scenarios. These insights establish SPM-Bench as a generalizable paradigm for automated scientific data synthesis.
- Abstract(参考訳): LLMは一般的な推論においてブレークスルーを達成したため、専門的な科学分野におけるその熟練度は、データ汚染、複雑さの不足、人的労働コストの禁止による既存のベンチマークのギャップを顕著に示している。
本稿では,プローブ顕微鏡(SPM)に特化して設計されたPhDレベルのマルチモーダルベンチマークであるSPM-Benchを紹介する。
我々は,高信頼と低コストの両立を保証する完全自動データ合成パイプラインを提案する。
AGS(Anchor-Gated Sieve)技術を用いて,2023年から2025年にかけて発行されたarXivとジャーナル論文から高価値画像テキストペアを効率よく抽出する。
VLMが局所的な高忠実度収穫のための空間座標"llbox"のみを返すハイブリッドクラウドローカルアーキテクチャを通じて、当社のパイプラインは高データセット純度を維持しながら極端なトークン保存を実現している。
LLMの性能を正確に客観的に評価するために,SIP-F1スコアを導入した。
この計量は厳密な能力階層を確立するだけでなく、初めて「個人性」(Conservative, Aggressive, Gambler, Wise)を定量化する。
これらの結果とモデル報告された信頼感と認識の難しさを関連付けることで、複雑な物理的シナリオにおいて、現在のAIの真の推論境界を明らかにする。
これらの知見は、SPM-Benchを自動科学的データ合成の一般化可能なパラダイムとして確立している。
関連論文リスト
- From Indoor to Open World: Revealing the Spatial Reasoning Gap in MLLMs [65.04549036809557]
我々は、ステレオカメラ、LiDAR、IMU/GPSセンサーで撮影された歩行者の視線映像から構築したベンチマークを紹介する。
このデータセットは、計量的に正確な3D情報を提供し、空間的推論質問の自動生成を可能にする。
評価の結果、構造化屋内ベンチマークで観測された性能向上は、オープンワールド環境では消滅することが明らかとなった。
論文 参考訳(メタデータ) (2025-12-22T18:58:12Z) - CryptoBench: A Dynamic Benchmark for Expert-Level Evaluation of LLM Agents in Cryptocurrency [60.83660377169452]
本稿では,Large Language Model (LLM)エージェントの現実的能力を厳格に評価するために設計された,最初の専門家による動的ベンチマークであるCryptoBenchを紹介する。
検索と予測のための汎用エージェントベンチマークとは異なり、プロの暗号分析は特定の課題を提示する。
論文 参考訳(メタデータ) (2025-11-29T09:52:34Z) - MM-HELIX: Boosting Multimodal Long-Chain Reflective Reasoning with Holistic Platform and Adaptive Hybrid Policy Optimization [103.74675519953898]
ロングチェーンのリフレクティブ推論は、複雑な現実世界の問題を解決するための前提条件である。
我々は42の難解な合成タスクの1,260のサンプルからなるベンチマークを構築した。
トレーニング後のデータを生成し、そのようなデータを活用するための学習パラダイムを探索する。
論文 参考訳(メタデータ) (2025-10-09T17:53:58Z) - Joint-stochastic-approximation Autoencoders with Application to Semi-supervised Learning [16.625057220045292]
深層指向生成モデル構築のための新しいアルゴリズム群であるJSAオートエンコーダを提案する。
JSA学習アルゴリズムは、データログ類似性を直接最大化し、後部モデルと推論モデルとの間の包括的KL分散を同時に最小化する。
半教師付きタスクにおいて、離散潜在空間を持つJSAオートエンコーダは、連続潜在空間を持つ他の最先端DGMと同等の性能を発揮することを実証的に示す。
論文 参考訳(メタデータ) (2025-05-24T06:52:23Z) - LLM-based Automated Theorem Proving Hinges on Scalable Synthetic Data Generation [11.045086599038338]
本研究では,幅広い中間的証明状態にまたがる多様な戦術を創出するために設計された,データ合成の訓練のための新しい実証状態探索手法を提案する。
また,データ合成手法を効果的に活用し,木探索における探索と利用のトレードオフを実現する適応ビームサイズ戦略を提案する。
論文 参考訳(メタデータ) (2025-05-17T14:47:36Z) - Zero-Shot Document-Level Biomedical Relation Extraction via Scenario-based Prompt Design in Two-Stage with LLM [6.26004554105527]
ハードウェアと労働コストの低い汎用大言語モデル (LLM) を用いて, 注釈のない完全文書から同じ結果を得るための新しい手法を提案する。
我々のアプローチは、名前付きエンティティ認識(NER)と関係抽出(RE)の2つの主要な段階を組み合わせる。
本稿では,プロンプトの有効性を高めるために,5部テンプレート構造とシナリオに基づくプロンプト設計の原理を提案する。
論文 参考訳(メタデータ) (2025-05-02T07:33:20Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。