Fugu-MT 論文翻訳(概要): Using Large Language Model to Solve and Explain Physics Word Problems Approaching Human Level

論文の概要: Using Large Language Model to Solve and Explain Physics Word Problems Approaching Human Level

arxiv url: http://arxiv.org/abs/2309.08182v1
Date: Fri, 15 Sep 2023 06:13:06 GMT
ステータス: 翻訳完了
システム内更新日: 2023-09-18 15:44:01.208853
Title: Using Large Language Model to Solve and Explain Physics Word Problems Approaching Human Level
Title（参考訳）: 人間のレベルに近づく物理学的単語問題の解法と説明に大言語モデルを使う
Authors: Jingzhe Ding, Yan Cen, Xinyuan Wei
Abstract要約: テキスト上で事前訓練された大言語モデル(LLM)は、純粋数学の単語問題を解くだけでなく、物理用語の問題も計算と推論によって解ける。われわれはOpenAIのs GPT3.5を用いてこれらの問題の答えを生成し、GPT3.5はゼロショット学習における問題の49.3%と少数ショット学習における73.2%を自動的に解けることを示した。
参考スコア（独自算出の注目度）: 0.0
License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
Abstract: Our work demonstrates that large language model (LLM) pre-trained on texts can not only solve pure math word problems, but also physics word problems-problems to be solved by calculation and inference based on some prior physical knowledge. We collect and annotate the first physics word problem dataset-PhysQA, which contains over 1000 junior high school physics word problems (on Kinematics, Mass&Density, Mechanics, Heat, Electricity). Then we use OpenAI' s GPT3.5 to generate the answer of these problems and found that GPT3.5 could automatically solve 49.3% of the problems on zero-shot learning and 73.2% on few-shot learning. This result show that by using similar problem and its answer as prompt, LLM could solve elementary physics word problems approaching human level. Besides automatically solving problems, GPT3.5 could also summarize the knowledge or topic examined by the problem, generate the relevant explanation, and synthesis new physics word problems according tothe input problems.Our work is the first research on automatically solving, explaining and generating physics word problems of multiple types and scenes, and we gain an acceptable and state-of-art accuracy, which demonstrates the potential of LLM's further application in the field of secondary education.
Abstract（参考訳）: 本研究は,テキスト上で事前学習した大規模言語モデル(LLM)が,純粋数学の単語問題を解くだけでなく,従来の物理知識に基づく計算と推論によって解ける物理語問題も提示する。我々は,1000以上の中学校物理語問題(Kinematics,Mass&Density,Mechanics,Heat,Electricity)を含む最初の物理単語データセットPhysQAを収集し,注釈する。そして、openaiのs gpt3.5を使ってこれらの問題の答えを生成し、gpt3.5がゼロショット学習の49.3%、少数ショット学習の73.2%を自動で解決できることを発見した。この結果から,LLMは類似問題とその解法を即時化することにより,人間レベルに近づく物理用語問題を解くことができた。 Besides automatically solving problems, GPT3.5 could also summarize the knowledge or topic examined by the problem, generate the relevant explanation, and synthesis new physics word problems according tothe input problems.Our work is the first research on automatically solving, explaining and generating physics word problems of multiple types and scenes, and we gain an acceptable and state-of-art accuracy, which demonstrates the potential of LLM's further application in the field of secondary education.

関連論文リスト

PhysicsEval: Inference-Time Techniques to Improve the Reasoning Proficiency of Large Language Models on Physics Problems [3.0901186959880977]
物理問題におけるフロンティアLLMの性能を数学的・記述的に評価する。各種物理教科書から得られた19,609個の問題から成り立つ物理問題評価ベンチマークである$rm P Small HYSICSEsmall VAL$を導入する。
論文参考訳（メタデータ） (2025-07-31T18:12:51Z)
PhysUniBench: An Undergraduate-Level Physics Reasoning Benchmark for Multimodal Models [69.73115077227969]
大規模言語モデル(MLLM)の推論能力の評価と改善を目的とした大規模ベンチマークであるPhysUniBenchを提案する。 PhysUniBenchは、3,304の物理問題から成っている。ベンチマークの構成には、複数のロールアウト、専門家レベルの評価、解決が容易な問題の自動フィルタリング、そして5段階の難易度グレーディングシステムを含む、厳格な多段階プロセスが含まれていた。
論文参考訳（メタデータ） (2025-06-21T09:55:42Z)
PhysReason: A Comprehensive Benchmark towards Physics-Based Reasoning [36.193595420239845]
1200プロブレムの大規模言語モデル評価ベンチマークであるPhysReasonを提案する。問題は平均8.1の解ステップが必要で、ハードは15.6である。 Deepseek-R1、Gemini-2.0-Flash-Thinking、o3-mini-highといったトップパフォーマンスモデルは、回答レベルの評価で60%以下を実現している。
論文参考訳（メタデータ） (2025-02-17T17:24:14Z)
MATH-Perturb: Benchmarking LLMs' Math Reasoning Abilities against Hard Perturbations [90.07275414500154]
各種モデルにおけるMATH-P-Hardの性能低下を観察する。また、学習した問題解決スキルを盲目的に適用する新しい形態の記憶に関する懸念も提起する。
論文参考訳（メタデータ） (2025-02-10T13:31:46Z)
Physics Reasoner: Knowledge-Augmented Reasoning for Solving Physics Problems with Large Language Models [41.88825441287559]
既存の大規模言語モデル(LLM)は、知識の不足や誤った知識アプリケーションのために頻繁に失敗する。 LLMを用いて物理問題を解くための知識強化フレームワークである物理推論器を提案する。物理学的な問題を考えると、物理学的推論は問題解析、公式検索、ガイド付き推論という3つの段階を通して解決する。経験的に、物理推論器は知識不足と不正確な応用の問題を緩和し、SciBenchの最先端性能を平均精度5.8%で達成した。
論文参考訳（メタデータ） (2024-12-18T12:33:50Z)
Fuse, Reason and Verify: Geometry Problem Solving with Parsed Clauses from Diagram [78.79651421493058]
平面幾何学的問題解法 (PGPS) のニューラルネットワークモデルを提案し, モーダル融合, 推論過程, 知識検証の3つの重要なステップについて述べる。推論のために、幾何学的推論過程を記述するための説明可能な解プログラムを設計し、自己限定デコーダを用いて解プログラムを自動回帰的に生成する。また, PGPS9Kと呼ばれる大規模幾何学的問題データセットを構築し, テキスト節, 解法プログラム, 関連知識解決器の詳細なアノテーションを含む。
論文参考訳（メタデータ） (2024-07-10T02:45:22Z)
Do Language Models Exhibit the Same Cognitive Biases in Problem Solving as Human Learners? [140.9751389452011]
本研究では,大言語モデル(LLM)の偏りを,算術語問題を解く際に,子どもに知られているものと関連づけて検討する。我々は,これらの各テストに対して,問題特徴のきめ細かい制御を可能にするニューロシンボリックアプローチを用いて,新しい単語問題を生成する。
論文参考訳（メタデータ） (2024-01-31T18:48:20Z)
G-LLaVA: Solving Geometric Problem with Multi-Modal Large Language Model [124.68242155098189]
大規模言語モデル(LLM)は、人間レベルの推論と生成能力に顕著な習熟性を示している。 G-LLaVAは幾何学的問題の解法において例外的な性能を示し、7Bパラメータしか持たないMathVistaベンチマークにおいて GPT-4-V を著しく上回っている。
論文参考訳（メタデータ） (2023-12-18T17:36:20Z)
Physics simulation capabilities of LLMs [0.0]
大規模言語モデル(LLM)は、学部レベルから大学院レベルの物理学教科書の問題を解くことができ、コーディングに精通している。本稿では、PhDレベルから研究レベルの計算物理問題に対するSOTA (State-of-the-art) LLMの評価を行う。
論文参考訳（メタデータ） (2023-12-04T18:06:41Z)
Examining the Potential and Pitfalls of ChatGPT in Science and Engineering Problem-Solving [1.3628066756509705]
この研究では、OpenAIのChatGPTが様々なタイプの物理問題を解く能力について検討している。 ChatGPTは、よく特定された問題の62.5%をうまく解決することができたが、その精度は未特定問題に対して8.3%にまで低下した。
論文参考訳（メタデータ） (2023-10-12T23:39:28Z)
Solving Math Word Problems by Combining Language Models With Symbolic Solvers [28.010617102877923]
大規模言語モデル(LLM)は複雑な推論と計算を行うために外部ツールと組み合わせることができる。本稿では,変数と方程式の集合として単語問題を段階的に形式化するLLMと,外部記号解法を併用する手法を提案する。提案手法は,GSM8Kベンチマークにおける元のPALに匹敵する精度を達成し,ALGEBRAでPALを絶対20%上回る性能を示した。
論文参考訳（メタデータ） (2023-04-16T04:16:06Z)
Automatic Generation of Socratic Subquestions for Teaching Math Word Problems [16.97827669744673]
本稿では,大言語モデル (LM) が数学用語の問題解決を導くためのシーケンシャルな質問を生成する能力について検討する。自動品質評価と人的品質評価の両方において,所望の質問特性に制約されたLMが優れた質問を生成することがわかった。その結果,課題の難易度は,質問が人間のパフォーマンスを損なうか否かを判断する上で重要な役割を担っていることが示唆された。
論文参考訳（メタデータ） (2022-11-23T10:40:22Z)
Solving Quantitative Reasoning Problems with Language Models [53.53969870599973]
我々は、一般的な自然言語データに基づいて事前訓練された大規模言語モデルであるMinervaを紹介し、さらに技術的な内容について訓練する。このモデルは、外部ツールを使わずに、技術的ベンチマークで最先端のパフォーマンスを達成する。我々はまた、物理学、生物学、化学、経済学、その他の科学における200以上の学部レベルの問題に対して、我々のモデルを評価した。
論文参考訳（メタデータ） (2022-06-29T18:54:49Z)
JiuZhang: A Chinese Pre-trained Language Model for Mathematical Problem Understanding [74.12405417718054]
本稿では,中国初の数学的事前学習言語モデル(PLM)を提示することにより,機械の数学的知性向上を目指す。他の標準のNLPタスクとは異なり、数学的テキストは問題文に数学的用語、記号、公式を含むため理解が難しい。基礎課程と上級課程の両方からなる数学PLMの学習を改善するための新しいカリキュラム事前学習手法を設計する。
論文参考訳（メタデータ） (2022-06-13T17:03:52Z)
Why are NLP Models Fumbling at Elementary Math? A Survey of Deep Learning based Word Problem Solvers [7.299537282917047]
単語問題を解くために開発された様々なモデルについて批判的に検討する。学術的な関心が豊富にあるにもかかわらず、主に使われている実験とデータセットの設計がいまだに停滞している理由を、一歩後退して分析する。
論文参考訳（メタデータ） (2022-05-31T10:51:25Z)
SMART: A Situation Model for Algebra Story Problems via Attributed Grammar [74.1315776256292]
本稿では, 問題解決における人間の精神状態を表現する心理学研究から生まれた, emphsituation modelの概念を紹介する。提案モデルでは,より優れた解釈性を保ちながら,従来のすべてのニューラルソルバを大きなマージンで上回る結果が得られた。
論文参考訳（メタデータ） (2020-12-27T21:03:40Z)

関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。

指定された論文の情報です。
本サイトの運営者は本サイト（すべての情報・翻訳含む）の品質を保証せず、本サイト（すべての情報・翻訳含む）を使用して発生したあらゆる結果について一切の責任を負いません。