論文の概要: ExpVid: A Benchmark for Experiment Video Understanding & Reasoning
- arxiv url: http://arxiv.org/abs/2510.11606v1
- Date: Mon, 13 Oct 2025 16:45:28 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-10-14 18:06:30.464983
- Title: ExpVid: A Benchmark for Experiment Video Understanding & Reasoning
- Title(参考訳): ExpVid:実験ビデオ理解と推論のためのベンチマーク
- Authors: Yicheng Xu, Yue Wu, Jiashuo Yu, Ziang Yan, Tianxiang Jiang, Yinan He, Qingsong Zhao, Kai Chen, Yu Qiao, Limin Wang, Manabu Okumura, Yi Wang,
- Abstract要約: 科学実験ビデオ上でMLLMを体系的に評価する最初のベンチマークであるExpVidを紹介する。
ExpVid 上で 19 個のMLLM を評価し, 粗粒度認識に優れる一方で, 詳細さの曖昧化, 時間経過による状態変化の追跡, 実験手順と科学的成果のリンクに苦慮していることがわかった。
この結果から,特に高次推論において,プロプライエタリモデルとオープンソースモデルとの顕著なパフォーマンスギャップが明らかとなった。
- 参考スコア(独自算出の注目度): 65.17173232816818
- License: http://creativecommons.org/licenses/by-nc-sa/4.0/
- Abstract: Multimodal Large Language Models (MLLMs) hold promise for accelerating scientific discovery by interpreting complex experimental procedures. However, their true capabilities are poorly understood, as existing benchmarks neglect the fine-grained and long-horizon nature of authentic laboratory work, especially in wet-lab settings. To bridge this gap, we introduce ExpVid, the first benchmark designed to systematically evaluate MLLMs on scientific experiment videos. Curated from peer-reviewed video publications, ExpVid features a new three-level task hierarchy that mirrors the scientific process: (1) Fine-grained Perception of tools, materials, and actions; (2) Procedural Understanding of step order and completeness; and (3) Scientific Reasoning that connects the full experiment to its published conclusions. Our vision-centric annotation pipeline, combining automated generation with multi-disciplinary expert validation, ensures that tasks require visual grounding. We evaluate 19 leading MLLMs on ExpVid and find that while they excel at coarse-grained recognition, they struggle with disambiguating fine details, tracking state changes over time, and linking experimental procedures to scientific outcomes. Our results reveal a notable performance gap between proprietary and open-source models, particularly in high-order reasoning. ExpVid not only provides a diagnostic tool but also charts a roadmap for developing MLLMs capable of becoming trustworthy partners in scientific experimentation.
- Abstract(参考訳): MLLM(Multimodal Large Language Models)は、複雑な実験手順を解釈することによって科学的発見を加速させる。
しかし、既存のベンチマークでは、特にウェットラブ環境では、真の実験室の仕事の細粒度で長い水平な性質を無視しているため、それらの真の能力はよく理解されていない。
このギャップを埋めるために、科学実験ビデオ上でMLLMを体系的に評価する最初のベンチマークであるExpVidを紹介する。
ExpVidは、ピアレビューされたビデオ出版物から、(1)ツール、素材、アクションのきめ細かい知覚、(2)ステップ順と完全性の手続き的理解、(3)完全な実験と公表された結論を結びつける科学的推論という、科学的なプロセスを反映した3段階のタスク階層を特徴付けている。
視覚中心のアノテーションパイプラインは、自動生成と多分野の専門家による検証を組み合わせることで、タスクが視覚的な接地を必要とすることを保証します。
ExpVid 上で 19 個のMLLM を評価し, 粗粒度認識に優れる一方で, 詳細さの曖昧化, 時間経過による状態変化の追跡, 実験手順と科学的成果のリンクに苦慮していることがわかった。
この結果から,特に高次推論において,プロプライエタリモデルとオープンソースモデルとの顕著なパフォーマンスギャップが明らかとなった。
ExpVidは診断ツールを提供するだけでなく、科学的実験において信頼できるパートナーになることのできるMLLMの開発ロードマップも表している。
関連論文リスト
- ExpStar: Towards Automatic Commentary Generation for Multi-discipline Scientific Experiments [17.62475116185655]
本稿では,多分野の科学実験における注釈自動生成の課題について紹介する。
実験コメント生成に適した最初のデータセットである textitExpInstruct を構築した。
本稿では,検索強化機構を利用して外部知識を適応的にアクセスし,評価し,活用する自動実験注釈生成モデルExpStarを提案する。
論文 参考訳(メタデータ) (2025-07-13T16:09:58Z) - Autonomous Microscopy Experiments through Large Language Model Agents [4.241267255764773]
大規模言語モデル(LLM)は、材料研究のための自己運転実験室(SDL)に革命をもたらしている。
LLM駆動エージェントによる原子間力顕微鏡の自動化フレームワークであるArtificially Intelligent Lab Assistant (AILA)を紹介する。
アートモデルの現状が,基本的なタスクや調整シナリオに苦労していることに気付きました。
論文 参考訳(メタデータ) (2024-12-18T09:35:28Z) - Many Heads Are Better Than One: Improved Scientific Idea Generation by A LLM-Based Multi-Agent System [62.832818186789545]
Virtual Scientists (VirSci) は、科学研究に固有のチームワークを模倣するために設計されたマルチエージェントシステムである。
VirSciは研究のアイデアを共同で生成し、評価し、洗練するエージェントのチームを組織している。
このマルチエージェントアプローチは、新しい科学的アイデアを生み出す上で、最先端の手法よりも優れていることを示す。
論文 参考訳(メタデータ) (2024-10-12T07:16:22Z) - Simulating Field Experiments with Large Language Models [0.6144680854063939]
本稿では,大規模言語モデル(LLM)のフィールド実験への応用を先導する。
観測者モードと参加者モードという2つの新しいプロンプト戦略を導入することで、複雑なフィールド設定において、結果の予測と参加者応答の再現の両方を行うLLMの能力を実証する。
以上の結果から,特定のシナリオにおいて実際の実験結果と良好な一致を示し,観察モードでは66%の刺激精度が得られた。
論文 参考訳(メタデータ) (2024-08-19T03:41:43Z) - DoraemonGPT: Toward Understanding Dynamic Scenes with Large Language Models (Exemplified as A Video Agent) [73.10899129264375]
本稿では,LLMによる動的シーン理解のための包括的かつ概念的にエレガントなシステムであるドラモンGPTについて検討する。
質問/タスクのあるビデオが与えられた場合、DoraemonGPTは入力されたビデオをタスク関連の属性を格納するシンボリックメモリに変換することから始める。
我々は,DoraemonGPTの有効性を,3つのベンチマークといくつかのアプリ内シナリオで広範囲に評価した。
論文 参考訳(メタデータ) (2024-01-16T14:33:09Z) - Pre-training Multi-task Contrastive Learning Models for Scientific
Literature Understanding [52.723297744257536]
事前学習言語モデル(LM)は、科学文献理解タスクにおいて有効であることを示す。
文献理解タスク間の共通知識共有を容易にするために,マルチタスクのコントラスト学習フレームワークであるSciMultを提案する。
論文 参考訳(メタデータ) (2023-05-23T16:47:22Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。