Fugu-MT 論文翻訳(概要): Scaling Physical Reasoning with the PHYSICS Dataset

論文の概要: Scaling Physical Reasoning with the PHYSICS Dataset

arxiv url: http://arxiv.org/abs/2506.00022v2
Date: Tue, 03 Jun 2025 01:33:30 GMT
ステータス: 翻訳完了
システム内更新日: 2025-06-05 01:42:09.140064
Title: Scaling Physical Reasoning with the PHYSICS Dataset
Title（参考訳）: PHYSICSデータセットによる物理推論のスケーリング
Authors: Shenghe Zheng, Qianjia Cheng, Junchi Yao, Mengsong Wu, Haonan He, Ning Ding, Yu Cheng, Shuyue Hu, Lei Bai, Dongzhan Zhou, Ganqu Cui, Peng Ye,
Abstract要約: PHYSICSは、被験者と難易度にまたがる16,568の高品質な物理問題を含むデータセットである。力学、電磁気学、熱力学、光学、現代物理学の5つの分野を網羅している。また、高校から大学院レベルの物理学コースまで幅広い難易度がある。
参考スコア（独自算出の注目度）: 32.956687630330116
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Large Language Models (LLMs) have achieved remarkable progress on advanced reasoning tasks such as mathematics and coding competitions. Meanwhile, physics, despite being both reasoning-intensive and essential to real-world understanding, received limited academic and industrial attention. This paper introduces PHYSICS, a dataset containing 16,568 high-quality physics problems spanning subjects and difficulty levels, to facilitate this issue. Specifically, PHYSICS is curated with exercises from over 100 textbooks through a carefully designed pipeline for quality control. It covers five major physics domains: Mechanics, Electromagnetism, Thermodynamics, Optics, and Modern Physics. It also spans a wide range of difficulty levels, from high school to graduate-level physics courses. To utilize the data for improving and evaluating the model's physical reasoning capabilities, we split the dataset into training and test sets, and provide reasoning paths generated by powerful reasoning models for the training data to facilitate model training. In addition, for the evaluation part, we find that existing evaluation frameworks exhibit biases in aspects such as units, simplification, and precision in physics domain. To balance efficiency and accuracy, we introduce a Rule+Model evaluation framework tailored to physics problems. Our evaluations on current state-of-the-art open-source and proprietary models highlight the limitations of current models in handling physics-related tasks. We hope that our dataset and evaluation methodology will jointly advance the development of LLMs in the field of physics.
Abstract（参考訳）: 大規模言語モデル (LLM) は数学やコーディング競技のような高度な推論タスクにおいて顕著な進歩を遂げている。一方、物理は理性に強く、現実世界の理解に欠かせないものであったにもかかわらず、学術的・産業的な関心は限られていた。本稿では、被験者と難易度にまたがる16,568の物理問題を含むデータセットであるPHYSICSを紹介し、この問題を容易にする。具体的には、PHYSICSは100以上の教科書から、注意深く設計された品質管理パイプラインを通じて、エクササイズでキュレートされる。力学、電磁気学、熱力学、光学、現代物理学の5つの分野を網羅している。また、高校から大学院レベルの物理学コースまで幅広い難易度がある。モデルの物理的推論能力を改善し評価するために、データセットをトレーニングとテストセットに分割し、トレーニングデータの強力な推論モデルによって生成された推論パスを提供し、モデルのトレーニングを容易にする。また, 既存の評価手法は, 物理領域における単位, 単純化, 精度などの側面に偏りがあることが判明した。効率と精度のバランスをとるために,物理問題に適したルール+モデル評価フレームワークを導入する。現状のオープンソースモデルとプロプライエタリモデルに対する評価は,物理関連タスクを扱う上での現在のモデルの限界を浮き彫りにしている。我々は,本手法が物理分野におけるLCMの開発を共同で進めることを期待している。

関連論文リスト

PhysicsEval: Inference-Time Techniques to Improve the Reasoning Proficiency of Large Language Models on Physics Problems [3.0901186959880977]
物理問題におけるフロンティアLLMの性能を数学的・記述的に評価する。各種物理教科書から得られた19,609個の問題から成り立つ物理問題評価ベンチマークである$rm P Small HYSICSEsmall VAL$を導入する。
論文参考訳（メタデータ） (2025-07-31T18:12:51Z)
ABench-Physics: Benchmarking Physical Reasoning in LLMs via High-Difficulty and Dynamic Physics Problems [21.278539804482012]
大規模言語モデル(LLM)は、数学やプログラミングのような領域で顕著なパフォーマンスを示している。物理学は、正確な計算だけでなく、深い概念的理解と物理モデリングスキルも要求する固有の課題を提起する。既存のベンチマークは、制限された難易度、複数選択フォーマット、静的評価設定のために、しばしば不足する。
論文参考訳（メタデータ） (2025-07-07T08:43:56Z)
PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文参考訳（メタデータ） (2025-06-21T09:55:42Z)
Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文参考訳（メタデータ） (2025-06-06T16:20:06Z)
PhysGaia: A Physics-Aware Dataset of Multi-Body Interactions for Dynamic Novel View Synthesis [62.283499219361595]
PhysGaiaは動的ノベルビュー合成(DyNVS)のために設計された物理対応のデータセットである。私たちのデータセットは、複数のオブジェクト間のリッチな相互作用を伴う複雑な動的シナリオを提供します。 PhysGaiaは、動的ビュー合成、物理に基づくシーン理解、および物理シミュレーションと統合されたディープラーニングモデルの研究を著しく前進させる。
論文参考訳（メタデータ） (2025-06-03T12:19:18Z)
PhyX: Does Your Model Have the "Wits" for Physical Reasoning? [49.083544963243206]
既存のベンチマークでは、物理的な推論という、インテリジェンスの重要な側面を捉えられません。視覚シナリオにおける物理基底推論のモデルキャパシティを評価するために設計された,最初の大規模ベンチマークであるPhyXを紹介する。
論文参考訳（メタデータ） (2025-05-21T18:33:50Z)
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning [36.193595420239845]
1200プロブレムの大規模言語モデル評価ベンチマークであるPhysReasonを提案する。問題は平均8.1の解ステップが必要で、ハードは15.6である。 Deepseek-R1、Gemini-2.0-Flash-Thinking、o3-mini-highといったトップパフォーマンスモデルは、回答レベルの評価で60%以下を実現している。
論文参考訳（メタデータ） (2025-02-17T17:24:14Z)
UGPhysics: A Comprehensive Benchmark for Undergraduate Physics Reasoning with Large Language Models [39.917074900737575]
大規模言語モデル(LLM)は、複雑な推論タスクを解く際、顕著な能力を示した。物理学の推論の領域は、非常に少ない注意を払われたユニークな課題を提示する。既存のベンチマークは、学部レベルの物理学の広さと深さでLLMの能力を評価するのに不足することが多い。
論文参考訳（メタデータ） (2025-02-01T06:42:02Z)
Towards World Simulator: Crafting Physical Commonsense-Based Benchmark for Video Generation [51.750634349748736]
テキスト・ツー・ビデオ(T2V)モデルは複雑なプロンプトの可視化に大きく貢献している。しかし、直感的な物理を正確に表現するこれらのモデルの能力はほとんど解明されていない。本稿では,T2V生成における物理コモンセンスの正しさを評価するためにPhyGenBenchを導入する。
論文参考訳（メタデータ） (2024-10-07T17:56:04Z)
ContPhy: Continuum Physical Concept Learning and Reasoning from Videos [86.63174804149216]
ContPhyは、マシン物理常識を評価するための新しいベンチマークである。私たちは、さまざまなAIモデルを評価し、ContPhyで満足なパフォーマンスを達成するのに依然として苦労していることがわかった。また、近年の大規模言語モデルとパーティクルベースの物理力学モデルを組み合わせるためのオラクルモデル(ContPRO)を導入する。
論文参考訳（メタデータ） (2024-02-09T01:09:21Z)
Physics-Integrated Variational Autoencoders for Robust and Interpretable Generative Modeling [86.9726984929758]
我々は、不完全物理モデルの深部生成モデルへの統合に焦点を当てる。本稿では,潜在空間の一部が物理によって基底づけられたVAEアーキテクチャを提案する。合成および実世界のデータセットの集合に対して生成的性能改善を示す。
論文参考訳（メタデータ） (2021-02-25T20:28:52Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。