論文の概要: MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science
- arxiv url: http://arxiv.org/abs/2501.10768v1
- Date: Sat, 18 Jan 2025 13:54:00 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-01-22 14:22:59.635482
- Title: MAPS: Advancing Multi-Modal Reasoning in Expert-Level Physical Science
- Title(参考訳): MAPS: エキスパートレベル物理科学におけるマルチモーダル推論の促進
- Authors: Erle Zhu, Yadi Liu, Zhe Zhang, Xujun Li, Jin Zhou, Xinjie Yu, Minlie Huang, Hongning Wang,
- Abstract要約: 現在のMLLM(Multi-Modal Large Language Models)は、一般的な視覚的推論タスクにおいて強力な機能を示している。
我々は,MLLMに基づく物理知覚とシミュレーションによるマルチモーダル科学推論(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
- 参考スコア(独自算出の注目度): 62.96434290874878
- License:
- Abstract: Pre-trained on extensive text and image corpora, current Multi-Modal Large Language Models (MLLM) have shown strong capabilities in general visual reasoning tasks. However, their performance is still lacking in physical domains that require understanding diagrams with complex physical structures and quantitative analysis based on multi-modal information. To address this, we develop a new framework, named Multi-Modal Scientific Reasoning with Physics Perception and Simulation (MAPS) based on an MLLM. MAPS decomposes expert-level multi-modal reasoning task into physical diagram understanding via a Physical Perception Model (PPM) and reasoning with physical knowledge via a simulator. The PPM module is obtained by fine-tuning a visual language model using carefully designed synthetic data with paired physical diagrams and corresponding simulation language descriptions. At the inference stage, MAPS integrates the simulation language description of the input diagram provided by PPM and results obtained through a Chain-of-Simulation process with MLLM to derive the underlying rationale and the final answer. Validated using our collected college-level circuit analysis problems, MAPS significantly improves reasoning accuracy of MLLM and outperforms all existing models. The results confirm MAPS offers a promising direction for enhancing multi-modal scientific reasoning ability of MLLMs. We will release our code, model and dataset used for our experiments upon publishing of this paper.
- Abstract(参考訳): 現在のMLLM(Multi-Modal Large Language Models)は、広範テキストと画像コーパスに基づいて事前訓練され、一般的な視覚的推論タスクにおいて強力な能力を示している。
しかし、それらの性能は、複雑な物理構造を持つ理解図や、マルチモーダル情報に基づく定量的解析を必要とする物理領域にはまだ欠けている。
そこで我々は,MLLMに基づくマルチモーダル科学推論と物理知覚・シミュレーション(MAPS)という新しいフレームワークを開発した。
MAPSは、専門家レベルのマルチモーダル推論タスクを物理的知覚モデル(PPM)を介して物理図理解に分解し、シミュレータを介して物理的知識で推論する。
PPMモジュールは、ペア化された物理図とそれに対応するシミュレーション言語記述を用いて、慎重に設計された合成データを用いて視覚言語モデルを微調整することによって得られる。
推論段階において、MAPSは、PPMによって提供される入力ダイアグラムのシミュレーション言語記述と、MLLMとチェイン・オブ・シミュレーションプロセスによって得られた結果を統合し、基礎となる論理と最終解を導出する。
得られた大学レベルの回路解析問題を用いて、MAPSはMLLMの推論精度を大幅に向上し、既存のモデルよりも優れる。
その結果、MAPSはMLLMのマルチモーダルな科学的推論能力を高めるための有望な方向を提供することを確認した。
本論文の公開に際し,実験に使用するコード,モデル,データセットを公開します。
関連論文リスト
- Energy & Force Regression on DFT Trajectories is Not Enough for Universal Machine Learning Interatomic Potentials [8.254607304215451]
MLIP(Universal Machine Learning Interactomic Potentials)は、材料発見のための高速化されたシミュレーションを可能にする。
MLIPは様々な材料に対して大規模分子動力学(MD)シミュレーションを確実かつ正確に行うことができない。
論文 参考訳(メタデータ) (2025-02-05T23:04:21Z) - Can MLLMs Reason in Multimodality? EMMA: An Enhanced MultiModal ReAsoning Benchmark [73.27104042215207]
EMMAは,数学,物理,化学,コーディングにまたがる有機マルチモーダル推論を対象とするベンチマークである。
EMMAタスクは、各モードで独立に推論することで対処できない高度なクロスモーダル推論を要求する。
EMMA上での最先端MLLMの評価は、複雑なマルチモーダルおよびマルチステップ推論タスクの処理において、重大な制限を生じさせる。
論文 参考訳(メタデータ) (2025-01-09T18:55:52Z) - Synthetic Vision: Training Vision-Language Models to Understand Physics [9.474337395173388]
シミュレーションデータを用いて視覚言語モデルの物理的推論能力を向上する2つの手法を提案する。
まず,物理推論タスクに関連するシミュレーションから生成した質問応答ペアを用いて,事前学習したVLMを微調整する。
第2に、物理特性とプロセスに富んだシーン記述を作成するために、物理コンテキストビルダー(PCB)を導入する。
論文 参考訳(メタデータ) (2024-12-11T18:40:16Z) - Using Machine Learning to Discover Parsimonious and Physically-Interpretable Representations of Catchment-Scale Rainfall-Runoff Dynamics [1.1510009152620668]
機械学習の未調査の側面は、最小限の最適表現を開発する方法である。
我々の見解では、MLに基づくモデリングは、設計によって根本的に解釈可能な計算単位をベースとすべきである。
本研究では,比較的類似した分散状態ネットワークを用いて,物理的解釈可能性と予測性能を両立させることができることを示す。
論文 参考訳(メタデータ) (2024-12-06T08:30:01Z) - LLMPhy: Complex Physical Reasoning Using Large Language Models and World Models [35.01842161084472]
そこで我々は,TraySimという物理推論タスクとデータセットを提案する。
私たちのタスクは、外部の影響を受けるトレイ上のいくつかのオブジェクトのダイナミクスを予測することです。
LLMの物理知識とプログラム合成能力を活用するゼロショットブラックボックス最適化フレームワークであるLLMPhyを提案する。
この結果から,LLMと物理エンジンの組み合わせにより,最先端のゼロショット物理推論性能が得られることがわかった。
論文 参考訳(メタデータ) (2024-11-12T18:56:58Z) - EMMA: Efficient Visual Alignment in Multi-Modal LLMs [56.03417732498859]
EMMAは、視覚的およびテキスト的エンコーディングを効率的に融合するために設計された軽量なクロスプラットフォームモジュールである。
EMMAは複数のタスクのパフォーマンスを最大9.3%向上させ、幻覚に対する堅牢性を大幅に向上させる。
論文 参考訳(メタデータ) (2024-10-02T23:00:31Z) - A Comprehensive Review of Multimodal Large Language Models: Performance and Challenges Across Different Tasks [74.52259252807191]
MLLM(Multimodal Large Language Models)は、単一のモダリティシステムの能力を超えた現実世界のアプリケーションの複雑さに対処する。
本稿では,自然言語,視覚,音声などのマルチモーダルタスクにおけるMLLMの応用を体系的に整理する。
論文 参考訳(メタデータ) (2024-08-02T15:14:53Z) - CoMMIT: Coordinated Instruction Tuning for Multimodal Large Language Models [68.64605538559312]
本稿では,MLLM命令のチューニングを理論的・経験的両面から解析する。
そこで本研究では,学習バランスを定量的に評価する尺度を提案する。
さらに,MLLMの生成分布の更新を促進する補助的損失正規化手法を提案する。
論文 参考訳(メタデータ) (2024-07-29T23:18:55Z) - A Mass-Conserving-Perceptron for Machine Learning-Based Modeling of Geoscientific Systems [1.1510009152620668]
我々は,PCベースとMLベースのモデリングアプローチのギャップを埋める手段として,物理的に解釈可能なMass Conserving Perceptron (MCP)を提案する。
MCPは、PCモデルの基礎となる有向グラフ構造とGRNNの間の固有同型を利用して、物理過程の質量保存性を明確に表す。
論文 参考訳(メタデータ) (2023-10-12T18:09:33Z) - Quantitatively Assessing the Benefits of Model-driven Development in
Agent-based Modeling and Simulation [80.49040344355431]
本稿では,MDD とABMS プラットフォームの利用状況と開発ミスについて比較する。
その結果、MDD4ABMSはNetLogoと類似した設計品質のシミュレーションを開発するのに、より少ない労力を必要とすることがわかった。
論文 参考訳(メタデータ) (2020-06-15T23:29:04Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。