論文の概要: From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models
- arxiv url: http://arxiv.org/abs/2512.10867v2
- Date: Fri, 12 Dec 2025 11:08:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-15 13:50:29.278688
- Title: From Macro to Micro: Benchmarking Microscopic Spatial Intelligence on Molecules via Vision-Language Models
- Title(参考訳): マクロからミクロへ:視覚言語モデルによる分子の顕微鏡的空間知能のベンチマーク
- Authors: Zongzhao Li, Xiangzhe Kong, Jiahui Su, Zongyang Ma, Mingze Li, Songyou Li, Yuelin Zhang, Yu Rong, Tingyang Xu, Deli Zhao, Wenbing Huang,
- Abstract要約: 本稿では,顕微鏡空間知能(MiSI, Microscopic Spatial Intelligence)の概念を紹介し, 目に見えない微視的実体の空間的関係を知覚し, 推論する能力について述べる。
この領域におけるビジョン・ランゲージ・モデル(VLM)の可能性を評価するため,系統的なベンチマーク・フレームワークであるMISI-Benchを提案する。
このフレームワークは163,000以上の質問応答対と約4,000の分子構造から派生した587,000の画像を備える。
- 参考スコア(独自算出の注目度): 49.40724953627119
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: This paper introduces the concept of Microscopic Spatial Intelligence (MiSI), the capability to perceive and reason about the spatial relationships of invisible microscopic entities, which is fundamental to scientific discovery. To assess the potential of Vision-Language Models (VLMs) in this domain, we propose a systematic benchmark framework MiSI-Bench. This framework features over 163,000 question-answer pairs and 587,000 images derived from approximately 4,000 molecular structures, covering nine complementary tasks that evaluate abilities ranging from elementary spatial transformations to complex relational identifications. Experimental results reveal that current state-of-the-art VLMs perform significantly below human level on this benchmark. However, a fine-tuned 7B model demonstrates substantial potential, even surpassing humans in spatial transformation tasks, while its poor performance in scientifically-grounded tasks like hydrogen bond recognition underscores the necessity of integrating explicit domain knowledge for progress toward scientific AGI. The datasets are available at https://huggingface.co/datasets/zongzhao/MiSI-bench.
- Abstract(参考訳): 本稿では,顕微鏡空間知能 (MiSI) の概念を紹介し, 科学的な発見の基礎となる, 目に見えない微視的実体の空間的関係を知覚し, 推論する能力について紹介する。
この領域におけるビジョン・ランゲージ・モデル(VLM)の可能性を評価するため,系統的なベンチマーク・フレームワークであるMISI-Benchを提案する。
このフレームワークは163,000以上の質問応答対と約4,000の分子構造から派生した587,000の画像を備え、基本的な空間変換から複雑な関係同定まで、9つの相補的なタスクをカバーしている。
実験の結果,現在最先端のVLMは,このベンチマークでは人間よりもかなり低い性能を示した。
しかし、微調整された7Bモデルは、空間的変換タスクにおいて人間を超越する可能性を示し、水素結合認識のような科学的に基底的なタスクにおけるその性能は、科学的なAGIに向けて明確なドメイン知識を統合する必要性を浮き彫りにしている。
データセットはhttps://huggingface.co/datasets/zongzhao/MiSI-bench.comで公開されている。
関連論文リスト
- SpatialBench: Benchmarking Multimodal Large Language Models for Spatial Cognition [19.526371771173064]
空間認知は実世界のマルチモーダルインテリジェンスの基本であり、モデルが物理的環境と対話できるようにする。
既存のベンチマークはしばしば空間認知を単純化し、それを1次元の計量に還元する。
本稿では,空間知能を5つの段階に分解する階層的空間認知フレームワークを提案する。
論文 参考訳(メタデータ) (2025-11-26T15:04:18Z) - Scaling Spatial Intelligence with Multimodal Foundation Models [90.32537840125009]
マルチモーダル・ファンデーション・モデルは 空間知能に 驚くべき欠陥をみせています
我々は、高性能で堅牢な空間知性を構築するために、原則的なアプローチをとる。
SenseNova-SIは、幅広い空間インテリジェンスベンチマークで前例のない性能を示している。
論文 参考訳(メタデータ) (2025-11-17T18:59:33Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - Holistic Evaluation of Multimodal LLMs on Spatial Intelligence [81.2547965083228]
空間情報を用いたマルチモーダルLLMの総合評価のためのEASIを提案する。
われわれはこの調査を8つの主要なベンチマークで実施し、総トークン数は100億を超えている。
実験により、GPT-5は空間知能(SI)において前例のない強みを示すが、(2)多種多様なSIタスクにおいて人的性能に欠けることが明らかとなった。
論文 参考訳(メタデータ) (2025-08-18T17:55:17Z) - $\text{M}^{2}$LLM: Multi-view Molecular Representation Learning with Large Language Models [59.125833618091846]
分子構造ビュー,分子タスクビュー,分子規則ビューの3つの視点を統合した多視点フレームワークを提案する。
実験によると、$textM2$LLMは、分類タスクと回帰タスクをまたいだ複数のベンチマークで最先端のパフォーマンスを達成する。
論文 参考訳(メタデータ) (2025-08-12T05:46:47Z) - Jigsaw-Puzzles: From Seeing to Understanding to Reasoning in Vision-Language Models [12.945689517235264]
Jigsaw-Puzzlesは空間的複雑さの高い1,100個の慎重にキュレートされた実世界の画像からなる新しいベンチマークである。
このデータセットに基づいて、視覚言語モデルの空間知覚、構造的理解、推論能力を厳格に評価する5つのタスクを設計する。
その結果、最強モデルであるGemini-2.5-Proでさえ、全体的な精度は77.14%に過ぎず、特にオーダージェネレーションタスクでは性能が劣っていることがわかった。
論文 参考訳(メタデータ) (2025-05-27T05:17:41Z) - Spatial Clustering of Molecular Localizations with Graph Neural Networks [0.0]
MIROは、ニューラルネットワークを使用して、クラスタリング効率を改善するために点雲を変換するアルゴリズムである。
MIROは異なる形状のクラスタと複数のスケールのクラスタの同時処理をサポートし,様々なデータセットのパフォーマンス向上を実証している。
MIROの堅牢なクラスタリング機能は、ニューロサイエンスなどの様々な分野における、神経接続パターンの分析の可能性を秘めている。
論文 参考訳(メタデータ) (2024-11-29T17:43:57Z) - A quantitative analysis of knowledge-learning preferences in large language models in molecular science [24.80165173525286]
大規模言語モデル(LLM)は、自然言語処理(NLP)の観点から科学的問題に取り組むための新しい研究パラダイムを導入している。
LLMは分子の理解と生成を著しく強化し、しばしば複雑な分子パターンをデコードし合成する能力で既存の手法を超越している。
我々は、ChEBI-20-MMというマルチモーダルベンチマークを提案し、モデルとデータモダリティとの互換性と知識獲得を評価する1263の実験を行った。
論文 参考訳(メタデータ) (2024-02-06T16:12:36Z) - Evaluation of the MACE Force Field Architecture: from Medicinal
Chemistry to Materials Science [0.0]
MACEは一般に、幅広いシステムにおいて代替品よりも優れていることを示す。
制約付き幾何最適化から分子動力学シミュレーションに至るまでのタスクにおけるモデルの有効性を実証する。
MACEは非常にデータ効率が高く、50個のランダムに選択された基準構成でトレーニングした場合、実験分子振動スペクトルを再現できることを示す。
論文 参考訳(メタデータ) (2023-05-23T17:01:25Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。