論文の概要: P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads
- arxiv url: http://arxiv.org/abs/2602.09443v1
- Date: Tue, 10 Feb 2026 06:28:08 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-02-11 20:17:43.40228
- Title: P1-VL: Bridging Visual Perception and Scientific Reasoning in Physics Olympiads
- Title(参考訳): P1-VL:物理オリンピックにおける視覚知覚と科学的推論
- Authors: Yun Luo, Futing Wang, Qianjia Cheng, Fangchen Yu, Haodi Lei, Jianhao Yan, Chenxi Li, Jiacheng Chen, Yufeng Zhao, Haiyuan Wan, Yuchen Zhang, Shenghe Zheng, Junchi Yao, Qingyang Zhang, Haonan He, Wenxuan Zeng, Li Sheng, Chengxing Xie, Yuxin Zuo, Yizhuo Li, Yulun Wu, Rui Huang, Dongzhan Zhou, Kai Chen, Yu Qiao, Lei Bai, Yu Cheng, Ning Ding, Bowen Zhou, Peng Ye, Ganqu Cui,
- Abstract要約: 我々は、先進的な科学的推論のために設計されたオープンソースのビジョン言語モデルのファミリーであるP1-VLを紹介する。
当社のフラッグシップモデルであるP1-VL-235B-A22Bは、12個の金メダルを確保し、オープンソースモデルで最先端のパフォーマンスを達成した最初のオープンソースVision-Language Modelになります。
- 参考スコア(独自算出の注目度): 91.05736019384489
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: The transition from symbolic manipulation to science-grade reasoning represents a pivotal frontier for Large Language Models (LLMs), with physics serving as the critical test anchor for binding abstract logic to physical reality. Physics demands that a model maintain physical consistency with the laws governing the universe, a task that fundamentally requires multimodal perception to ground abstract logic in reality. At the Olympiad level, diagrams are often constitutive rather than illustrative, containing essential constraints, such as boundary conditions and spatial symmetries, that are absent from the text. To bridge this visual-logical gap, we introduce P1-VL, a family of open-source vision-language models engineered for advanced scientific reasoning. Our method harmonizes Curriculum Reinforcement Learning, which employs progressive difficulty expansion to stabilize post-training, with Agentic Augmentation, enabling iterative self-verification at inference. Evaluated on HiPhO, a rigorous benchmark of 13 exams from 2024-2025, our flagship P1-VL-235B-A22B becomes the first open-source Vision-Language Model (VLM) to secure 12 gold medals and achieves the state-of-the-art performance in the open-source models. Our agent-augmented system achieves the No.2 overall rank globally, trailing only Gemini-3-Pro. Beyond physics, P1-VL demonstrates remarkable scientific reasoning capacity and generalizability, establishing significant leads over base models in STEM benchmarks. By open-sourcing P1-VL, we provide a foundational step toward general-purpose physical intelligence to better align visual perceptions with abstract physical laws for machine scientific discovery.
- Abstract(参考訳): 記号操作から科学グレードの推論への移行は、物理が抽象論理を物理現実に結合するための重要なテストアンカーとして機能し、Large Language Models (LLMs) の重要なフロンティアである。
物理学は、モデルが宇宙を統治する法則と物理的に整合性を維持することを要求する。
オリンピアードのレベルでは、図形は図形ではなく構成され、境界条件や空間対称性のような本質的な制約を含む。
この視覚学的なギャップを埋めるために、先進的な科学的推論のために設計されたオープンソースの視覚言語モデルのファミリーであるP1-VLを紹介する。
本手法は,学習後の学習を安定させるために,段階的難易度拡張を用いたカリキュラム強化学習とエージェント強化を併用し,推論時の反復的自己検証を可能にする。
2024-2025年の13回の試験の厳格なベンチマークであるHiPhOに基づいて評価され、我々の旗艦であるP1-VL-235B-A22Bは、12個の金メダルを確保し、オープンソースモデルにおける最先端のパフォーマンスを達成する最初のオープンソースビジョン・ランゲージ・モデル(VLM)となる。
我々のエージェント強化システムは全世界で第2位を獲得し、ジェミニ-3-Proに次いでいる。
物理学以外にも、P1-VLは科学的な推論能力と一般化可能性を示し、STEMベンチマークにおいてベースモデルよりも重要なリードを確立している。
P1-VLをオープンソース化することにより、汎用的な物理知能に向けての基礎的なステップを提供し、視覚知覚を機械科学発見のための抽象物理法則と整合させる。
関連論文リスト
- HOLOGRAPH: Active Causal Discovery via Sheaf-Theoretic Alignment of Large Language Model Priors [12.969042037563971]
HOLOGRAPHは、大規模言語モデルに基づく因果発見を形式化するフレームワークである。
我々の重要な洞察は、コヒーレントなグローバル因果構造は、グローバルセクションの存在に対応することである。
合成および実世界のベンチマークの実験は、HOLOGRAPHが厳密な数学的基礎を提供することを示した。
論文 参考訳(メタデータ) (2025-12-30T21:47:05Z) - Interpretable Physics Reasoning and Performance Taxonomy in Vision-Language Models [0.523693719989689]
本稿では,視覚言語モデル(VLM)を2次元物理の理解に基づいて厳格に評価するための新しいフレームワークを提案する。
私たちのフレームワークは,4つのコアドメイン(プロジェクタモーション,コリジョンダイナミクス,メカニクス,流体ダイナミクス)にまたがる400以上の問題の多様なテストベッドを生成する,実用的なシナリオジェネレータを備えている。
モデルスケールと推論能力の相関を強く示し,トップパフォーマンスモデルであるQwen2.5-VL-7Bを0.815点とした。
論文 参考訳(メタデータ) (2025-09-10T04:15:01Z) - Mimicking the Physicist's Eye:A VLM-centric Approach for Physics Formula Discovery [98.58830663687911]
VIPERR-aq1は、方程式推論のための視覚誘導を行うマルチモーダルモデルである。
視覚知覚、軌跡データ、象徴的推論を統合し、科学的発見過程をエミュレートする。
常に最先端のVLMベースラインを精度と解釈性で上回る。
論文 参考訳(メタデータ) (2025-08-24T14:34:21Z) - From Diagnosis to Improvement: Probing Spatio-Physical Reasoning in Vision Language Models [10.740632493925018]
物理的推論は、堅牢な世界モデルを構築するための重要なステップである。
近年の視覚言語モデル (VLM) は、特殊領域において顕著な進歩を見せている。
しかし、その物理的推論能力はほとんど解明されていない。
論文 参考訳(メタデータ) (2025-08-14T15:55:48Z) - SeePhys: Does Seeing Help Thinking? -- Benchmarking Vision-Based Physics Reasoning [95.2886065291234]
物理問題に基づく推論のための大規模マルチモーダルベンチマークである SeePhys を提示する。
このベンチマークは、物理学の分野にまたがる7つの基本的な領域をカバーし、21のカテゴリの非常に異質なダイアグラムを取り入れている。
最も先進的な視覚推論モデル(例えばGemini-2.5-proやo4-mini)でさえ、ベンチマークで60%未満の精度を実現している。
論文 参考訳(メタデータ) (2025-05-25T11:28:34Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。