論文の概要: Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning
- arxiv url: http://arxiv.org/abs/2605.14040v1
- Date: Wed, 13 May 2026 19:00:57 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-15 21:45:34.468781
- Title: Physics-R1: An Audited Olympiad Corpus and Recipe for Visual Physics Reasoning
- Title(参考訳): 物理R1:オーディエントオリンピアッドコーパスとビジュアル物理推論のための準備
- Authors: Shan Yang,
- Abstract要約: フィールドが視覚重複推論をどのように計測するかを歪曲する3つの未検出建設プラクティスを文書化する。
PhysCorp-A (6,432-record three-stage-audited multimodal corpus), PhysR1Corp (2,268-record closed-form RL pool), PhysicsOlymA (500 novel-source heldout olympiad eval with native difficulty labels and an EN/ET subset。
- 参考スコア(独自算出の注目度): 11.907264672363718
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: We audit the multimodal-physics evaluation pipeline end-to-end and document three undetected construction practices that distort how the field measures vision-language reasoning: train-eval contamination, translation drift, and MCQ saturation. (1) Public training pools (UGPhysics-Train, SciInstruct, MMK12) pass single-stage 5-gram-Jaccard audits with zero hits across all six public physics evals; a three-stage audit (Jaccard -> mxbai-embed-large cosine -> Haiku-4.5 LLM-judge) surfaces 134 near-duplicates and 4,846 paraphrase candidates in SciInstruct alone. (2) A 17-pp Sonnet 4.5 delta on 59 paired Estonian-English olympiad problems (30.5% vs. 13.6%; sign test p=0.011, McNemar p=0.021, paired bootstrap 95% CI [+5.1, +28.9] pp). (3) A 46-pp format-and-novelty gradient on identical Sonnet weights between MCQ (79.7% on PhyX) and open-ended olympiad evaluation (33.4% on PhysOlym-A). We release four artifacts addressing these gaps: PhysCorp-A (6,432-record three-stage-audited multimodal corpus), PhysR1Corp (2,268-record closed-form RL pool), PhysOlym-A (500-problem, 99.8% novel-source held-out olympiad eval with native difficulty labels and an EN/ET bilingual subset), and Physics-R1, a reference GSPO+DAPO recipe cold-started from Qwen3-VL-8B-Thinking. Across 3 seeds, Physics-R1 lifts the audited corpus over the 8B base by +18.3 pp on PhysOlym-A liberal (8.0 -> 26.3 +/- 1.7; 7.1 pp behind Sonnet 4.5), +15.7 pp on PhysReason (23.9 -> 39.6 +/- 6.4; ahead of Qwen3-VL-32B and Gemini 2.5 Pro), +6.9 pp on OlympiadBench-Physics (46.2 +/- 1.5), and +4.1 pp on PhyX MCQ (77.8 +/- 0.3).
- Abstract(参考訳): マルチモーダル・フィジカル評価パイプラインをエンドツーエンドに監査し、現場がいかに視覚言語推論を測るかを歪曲する3つの未検出構成プラクティスを文書化する。
1)公共トレーニングプール(UGPhysics-Train,SciInstruct,MMK12)は,SciInstructだけで約134面,パラフレーズ候補4,846面の3段階監査(Jaccard->mxbai-embed-large cosine->Haiku-4.5 LLM-judge)を実施。
2)59対のエストニア英語オリンピアード問題(30.5%対13.6%、サインテスト p=0.011, McNemar p=0.021, ペアブートストラップ95% CI [+5.1, +28.9] pp)。
(3) MCQ(PhyXでは79.7%)とPhysOlym-Aでは33.4%)の間の同一のSonnet重みに対する46-ppのフォーマット・アンド・ノーベルティ勾配。
PhysCorp-A (6,432-record three-stage-audited multimodal corpus), PhysR1Corp (2,268-record closed-form RL pool), PhysOlym-A (500-problem, 99.8% novel-source held-out olympiad eval with native difficulty labels and an EN/ET bilingual subset), Physics-R1, GSPO+DAPO recipe a cold-started from Qwen3-VL-8B-Thinking。
3つの種にまたがって、PhysOlym-Aリベラル (8.0 -> 26.3 +/- 1.7; 7.1 pp、PhysReason (23.9 -> 39.6 +/- 6.4; Qwen3-VL-32BとGemini 2.5 Proの前) +6.9 pp、OlympiadBench-Physics (46.2 +/-1.5) +4.1 pp、PhysOlym-Aリベラル (8.0 -> 26.3 +/- 1.7; 7.1 pp、PhysReason (23.9 -> 39.6 +/- 6.4; Qwen3-VL-32BとGemini 2.5 Proの前) +6.9 pp、PhysOlympiadBench-Physics (46.2 +/-1.5) で監査されたコーパスを持ち上げる。
関連論文リスト
- ClinicalBench: Stress-Testing Assertion-Aware Retrieval for Cross-Admission Clinical QA on MIMIC-IV [0.0]
推論ベンチマークはクリーンインプットの臨床的パフォーマンスを測定する。
我々は, 否定, 時間性, 家族反対の帰属が正しい答えを誤ったものに戻すことができる, 実際の EHR ノートを検索することで, 推論の段階を評価する。
EpiKGは、アサーションラベルと時間性タグを患者の知識グラフに格納し、質問意図による検索をルーティングする。
論文 参考訳(メタデータ) (2026-05-11T18:47:52Z) - Bielik-Q2-Sharp: A Comparative Study of Extreme 2-bit Quantization Methods for a Polish 11B Language Model [0.0]
ポーランド語大言語モデルに適用された極端2ビット量子化の最初の体系的学術評価であるBielik-Q2-Sharpを提案する。
我々は、QuIP#、SpinQuant+GPTQ、ButterflyQuant、QTIP、VPTQ、AQLMの6つの最先端のポストトレーニング量子化手法を比較した。
私たちのベストバリアント(QuIP# E8P12)は22のポーランドのベンチマークで71.92%、IQ2_XXSベースラインでは72.07%を達成しています。
論文 参考訳(メタデータ) (2026-03-04T15:19:35Z) - PhysicsMinions: Winning Gold Medals in the Latest Physics Olympiads with a Coevolutionary Multimodal Multi-Agent System [65.02248709992442]
物理は現実世界の理解と形成の中心であり、物理問題を解く能力は現実世界の物理知能の重要な指標である。
既存のアプローチは主にシングルモデルベースであり、オープンソースのMLLMはゴールドメディカルレベルのパフォーマンスに達することは滅多にない。
我々は,物理オリンピアードの共進化的マルチエージェントシステムであるPhysorMinionsを提案する。
アーキテクチャには、ダイアグラムを解釈するVisual Studio、ソリューションを定式化するLogic Studio、デュアルステージ検証を実行するReview Studioの3つのシナジスティックスタジオがある。
論文 参考訳(メタデータ) (2025-09-29T14:40:53Z) - HiPhO: How Far Are (M)LLMs from Humans in the Latest High School Physics Olympiad Benchmark? [53.76627321546095]
HiPhOは、人間による評価を備えた、高校の物理学オリンピアードのための最初のベンチマークである。
2024年から2025年にかけて13回のオリンピアード試験をコンパイルし、国際大会と地域競技の両方にまたがる。
我々は、(M)LLMとヒトの競技者との直接比較を可能にするため、公式メダル閾値に基づくモデルに金、銀、銅のメダルを割り当てる。
論文 参考訳(メタデータ) (2025-09-09T16:24:51Z) - CMPhysBench: A Benchmark for Evaluating Large Language Models in Condensed Matter Physics [71.42168240638462]
CMPhysBenchは、凝縮物質物理学における大規模言語モデルの習熟度を評価するように設計されている。
以上の結果から,最高モデルであるGrok-4でさえ,CMPhysBench上での平均SEEDスコアが36点,精度が28%であった。
論文 参考訳(メタデータ) (2025-08-25T15:32:22Z) - Symmetry-Constrained Multi-Scale Physics-Informed Neural Networks for Graphene Electronic Band Structure Prediction [0.0]
本稿では,Symmetry-Constrained Multi-Scale Physics-Informed Neural Network (SCMS-PINN) v35を紹介する。
グラフェンバンド構造を直接学習し、結晶対称性を厳格に強化する。
このモデルは、理論ゼロの30.3$mu$eVと平均誤差53.9meVとブリルアンゾーンの40.5meV(導電性)でディラック点ギャップを予測する。
論文 参考訳(メタデータ) (2025-08-14T14:59:10Z) - UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models [39.917074900737575]
大規模言語モデル(LLM)は、複雑な推論タスクを解く際、顕著な能力を示した。
物理学の推論の領域は、非常に少ない注意を払われたユニークな課題を提示する。
既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多い。
論文 参考訳(メタデータ) (2025-02-01T06:42:02Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。