論文の概要: PRiSM: An Agentic Multimodal Benchmark for Scientific Reasoning via Python-Grounded Evaluation
- arxiv url: http://arxiv.org/abs/2512.05930v1
- Date: Fri, 05 Dec 2025 18:14:55 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-12-13 22:40:57.130832
- Title: PRiSM: An Agentic Multimodal Benchmark for Scientific Reasoning via Python-Grounded Evaluation
- Title(参考訳): PRiSM: Pythonによる科学的推論のためのエージェントマルチモーダルベンチマーク
- Authors: Shima Imani, Seungwhan Moon, Adel Ahmadyan, Lu Zhang, Kirmani Ahmed, Babak Damavandi,
- Abstract要約: PRiSMは、基底Pythonコードによる科学的推論を評価するための、合成、完全に動的、マルチモーダルベンチマークである。
PRiSMには24750以上の大学レベルの物理学と数学の問題が含まれており、スケーラブルなエージェントベースのパイプラインであるPrismAgentを活用しています。
本稿では,摂動,記号型プログラム合成,ロバスト性,推論補正,あいまいさ解消を対象とする5つの評価課題を提案する。
- 参考スコア(独自算出の注目度): 7.0748516420242495
- License: http://creativecommons.org/licenses/by-nc-nd/4.0/
- Abstract: Evaluating vision-language models (VLMs) in scientific domains like mathematics and physics poses unique challenges that go far beyond predicting final answers. These domains demand conceptual understanding, symbolic reasoning, and adherence to formal laws, requirements that most existing benchmarks fail to address. In particular, current datasets tend to be static, lacking intermediate reasoning steps, robustness to variations, or mechanisms for verifying scientific correctness. To address these limitations, we introduce PRiSM, a synthetic, fully dynamic, and multimodal benchmark for evaluating scientific reasoning via grounded Python code. PRiSM includes over 24,750 university-level physics and math problems, and it leverages our scalable agent-based pipeline, PrismAgent, to generate well-structured problem instances. Each problem contains dynamic textual and visual input, a generated figure, alongside rich structured outputs: executable Python code for ground truth generation and verification, and detailed step-by-step reasoning. The dynamic nature and Python-powered automated ground truth generation of our benchmark allow for fine-grained experimental auditing of multimodal VLMs, revealing failure modes, uncertainty behaviors, and limitations in scientific reasoning. To this end, we propose five targeted evaluation tasks covering generalization, symbolic program synthesis, perturbation robustness, reasoning correction, and ambiguity resolution. Through comprehensive evaluation of existing VLMs, we highlight their limitations and showcase how PRiSM enables deeper insights into their scientific reasoning capabilities.
- Abstract(参考訳): 数学や物理学のような科学分野における視覚言語モデル(VLM)の評価は、最終的な答えを予測できない独特な課題を引き起こす。
これらの領域は概念的理解、象徴的推論、公式な法則への固執、ほとんどの既存のベンチマークが対応できない要求を要求する。
特に、現在のデータセットは静的であり、中間的推論ステップ、変動に対する堅牢性、あるいは科学的正当性を検証するメカニズムが欠けている傾向にある。
これらの制限に対処するため、我々はPythonコードによる科学的推論を評価するために、合成、完全に動的、マルチモーダルなベンチマークであるPRiSMを紹介した。
PRiSMには24750以上の大学レベルの物理と数学の問題が含まれており、スケーラブルなエージェントベースのパイプラインであるPrismAgentを利用して、十分に構造化された問題インスタンスを生成する。
それぞれの問題には、動的テキストとビジュアル入力、生成図、リッチな構造化された出力、すなわち、基底真理の生成と検証のための実行可能なPythonコード、詳細なステップバイステップの推論が含まれる。
我々のベンチマークの動的性質とPythonによる自動基底真理生成により、マルチモーダルVLMのきめ細かい実験監査が可能となり、故障モード、不確実性、科学的推論の限界が明らかになった。
そこで本研究では,一般化,記号型プログラム合成,摂動ロバスト性,推論補正,あいまいさ解消を対象とする5つの評価課題を提案する。
既存のVLMの総合的な評価を通じて、これらの制限を強調し、PRiSMが科学的な推論能力にどのように深い洞察をもたらすかを示す。
関連論文リスト
- Can World Simulators Reason? Gen-ViRe: A Generative Visual Reasoning Benchmark [48.02995109011304]
ビデオ生成モデルは、Chain-of-Frames (CoF)推論を通じて、潜在的な世界シミュレータとして登場した。
既存のベンチマークは、忠実さやアライメントに重点を置いており、CoFの推論を評価していない。
我々は,認知科学と実世界のAI応用を基盤としたフレームワークであるGen-ViReを紹介する。
論文 参考訳(メタデータ) (2025-11-17T19:11:39Z) - A Study of Rule Omission in Raven's Progressive Matrices [0.0]
分析的推論は人間の認知の中核にあり、人工知能の根本的な課題である。
本研究では、不完全学習条件下での現代AIシステムの一般化能力について検討する。
実験により、変圧器は慣れ親しんだ規則に対して強い性能を示すが、新しい規則や省略規則に直面すると、その精度は急激に低下することが明らかとなった。
論文 参考訳(メタデータ) (2025-10-03T15:53:28Z) - Multi-Physics: A Comprehensive Benchmark for Multimodal LLMs Reasoning on Chinese Multi-Subject Physics Problems [15.023749693065406]
我々は,5つの難易度を含む総合的なベンチマークである,中国の物理推論のためのマルチ物理について紹介する。
我々は20種類のMLLMの評価に2つの評価フレームワークを使用し、最終回答精度とステップ・バイ・ステップの整合性の両方を分析した。
論文 参考訳(メタデータ) (2025-09-19T10:18:48Z) - Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models [0.523693719989689]
本稿では,視覚言語モデル(VLM)を2次元物理の理解に基づいて厳格に評価するための新しいフレームワークを提案する。
私たちのフレームワークは,4つのコアドメイン(プロジェクタモーション,コリジョンダイナミクス,メカニクス,流体ダイナミクス)にまたがる400以上の問題の多様なテストベッドを生成する,実用的なシナリオジェネレータを備えている。
モデルスケールと推論能力の相関を強く示し,トップパフォーマンスモデルであるQwen2.5-VL-7Bを0.815点とした。
論文 参考訳(メタデータ) (2025-09-10T04:15:01Z) - PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors [29.988641224102164]
textscPhysGymは、LSMベースの科学的推論を厳格に評価するための、新しいベンチマークスイートとシミュレーションプラットフォームである。
textscPhysGymの主な貢献は、エージェントに提供された事前知識のレベルを高度に制御することにある。
論文 参考訳(メタデータ) (2025-07-21T12:28:10Z) - Do Vision-Language Models Have Internal World Models? Towards an Atomic Evaluation [54.3628937181904]
内部世界モデル(英語版)(WM)は、エージェントが世界の状態を理解し、遷移を予測することを可能にする。
近年,OpenAI o3, GPT-4o, Geminiなどの大規模視覚言語モデル(VLM)は汎用的なWMとしての可能性を示している。
論文 参考訳(メタデータ) (2025-06-27T03:24:29Z) - A Survey on Post-training of Large Language Models [185.51013463503946]
大規模言語モデル(LLM)は、自然言語処理を根本的に変革し、会話システムから科学的探索まで、さまざまな領域で欠かせないものにしている。
これらの課題は、制限された推論能力、倫理的不確実性、最適なドメイン固有のパフォーマンスといった欠点に対処するために、先進的な訓練後言語モデル(PoLM)を必要とする。
本稿では,タスク固有の精度を向上するファインチューニング,倫理的コヒーレンスと人間の嗜好との整合性を保証するアライメント,報酬設計の課題によらず多段階の推論を進める推論,統合と適応の5つのパラダイムを体系的に追跡したPoLMの総合的な調査について述べる。
論文 参考訳(メタデータ) (2025-03-08T05:41:42Z) - MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science [62.96434290874878]
現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
論文 参考訳(メタデータ) (2025-01-18T13:54:00Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。