論文の概要: PhySense: Principle-Based Physics Reasoning Benchmarking for Large Language Models
- arxiv url: http://arxiv.org/abs/2505.24823v1
- Date: Fri, 30 May 2025 17:25:20 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-06-02 19:47:53.095773
- Title: PhySense: Principle-Based Physics Reasoning Benchmarking for Large Language Models
- Title(参考訳): PhySense: 大規模言語モデルのための原理に基づく物理推論ベンチマーク
- Authors: Yinggan Xu, Yue Liu, Zhiqiang Gao, Changnan Peng, Di Luo,
- Abstract要約: 大規模言語モデル(LLM)は急速に進歩し、複雑な科学的問題に取り組む能力が高まっている。
この相違は、効率的かつ解釈可能な問題解決に中核となる物理原則を適用する能力において、重要なギャップを浮き彫りにする。
我々は、ガイド原理を用いて専門家が容易に解けるように設計された、新しい原理に基づく物理推論ベンチマークであるPhySenseを紹介する。
- 参考スコア(独自算出の注目度): 9.097623284579836
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Large language models (LLMs) have rapidly advanced and are increasingly capable of tackling complex scientific problems, including those in physics. Despite this progress, current LLMs often fail to emulate the concise, principle-based reasoning characteristic of human experts, instead generating lengthy and opaque solutions. This discrepancy highlights a crucial gap in their ability to apply core physical principles for efficient and interpretable problem solving. To systematically investigate this limitation, we introduce PhySense, a novel principle-based physics reasoning benchmark designed to be easily solvable by experts using guiding principles, yet deceptively difficult for LLMs without principle-first reasoning. Our evaluation across multiple state-of-the-art LLMs and prompt types reveals a consistent failure to align with expert-like reasoning paths, providing insights for developing AI systems with efficient, robust and interpretable principle-based scientific reasoning.
- Abstract(参考訳): 大規模言語モデル(LLM)は急速に進歩し、物理学を含む複雑な科学的問題に取り組む能力が高まっている。
この進歩にもかかわらず、現在のLLMは人間の専門家の簡潔で原則に基づく推論特性をエミュレートできず、代わりに長く不透明な解を生成する。
この相違は、効率的かつ解釈可能な問題解決に中核となる物理原則を適用する能力において、重要なギャップを浮き彫りにする。
この制限を体系的に検討するために,原則に基づく新しい物理推論ベンチマークであるPhySenseを導入する。
複数の最先端のLCMとプロンプトタイプで評価した結果、専門家のような推論パスと整合性のある失敗が明らかとなり、効率的で堅牢で解釈可能な原理に基づく科学推論を備えたAIシステムを開発する上での洞察が得られました。
関連論文リスト
- PhysicsArena: The First Multimodal Physics Reasoning Benchmark Exploring Variable, Process, and Solution Dimensions [9.428916253383402]
PhysicsArenaは、MLLMのマルチモーダル物理推論能力の評価と向上のための総合的なプラットフォームを提供することを目指している。
MLLMは様々な推論タスクにおいて顕著な能力を示してきたが、複雑な物理推論への応用は未解明のままである。
論文 参考訳(メタデータ) (2025-05-21T12:48:16Z) - JustLogic: A Comprehensive Benchmark for Evaluating Deductive Reasoning in Large Language Models [51.99046112135311]
LLM(Large Language Models)の厳密な評価のための合成推論ベンチマークであるJustLogicを紹介する。
JustLogicは非常に複雑で、多様な言語パターン、語彙、引数構造を生成することができる。
実験の結果, (i) LLMは人体平均値よりも同等かそれ以上に機能するが, 人体天井よりも著しく低下することがわかった。
論文 参考訳(メタデータ) (2025-01-24T15:49:10Z) - Enhancing LLMs for Physics Problem-Solving using Reinforcement Learning with Human-AI Feedback [33.000541253136745]
大規模言語モデル(LLM)は、テキストベースのタスクにおいて強力な能力を示してきたが、物理学的な問題に必要な複雑な推論に苦慮している。
本稿では,人間・人工知能フィードバックを用いた強化学習(RLHAIF)を用いた物理問題におけるLLM性能向上のための新しいアプローチを提案する。
論文 参考訳(メタデータ) (2024-12-06T21:17:47Z) - Towards Generalizable and Faithful Logic Reasoning over Natural Language via Resolution Refutation [24.584926992534346]
本稿では,GFaiR(Generalizable and Faithful Reasoner)という新しいフレームワークを提案する。
解法の難解化は、推論規則を拡張し、矛盾による証明の原理を採用することによって、全ての一階論理推論問題を解く能力を持つ。
我々のシステムは、単純なシナリオでパフォーマンスを維持しながら、複雑なシナリオで最先端のパフォーマンスを達成することで、これまでの作業より優れています。
論文 参考訳(メタデータ) (2024-04-02T06:28:44Z) - A Principled Framework for Knowledge-enhanced Large Language Model [58.1536118111993]
大規模言語モデル(LLM)は汎用性があるが、深い信頼性のある推論を必要とするタスクに悩まされることが多い。
本稿では、知識を効果的に固定し、閉ループ推論プロセスを用いるLLMを作成するための厳密な設計のフレームワークを提案する。
論文 参考訳(メタデータ) (2023-11-18T18:10:02Z) - From Heuristic to Analytic: Cognitively Motivated Strategies for
Coherent Physical Commonsense Reasoning [66.98861219674039]
ヒューリスティック分析推論(HAR)戦略は、モデル決定のための合理化のコヒーレンスを大幅に改善する。
以上の結果から, PLM推論の一貫性と信頼性を効果的に向上できる可能性が示唆された。
論文 参考訳(メタデータ) (2023-10-24T19:46:04Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。