論文の概要: Scientific Logicality Enriched Methodology for LLM Reasoning: A Practice in Physics
- arxiv url: http://arxiv.org/abs/2605.17104v1
- Date: Sat, 16 May 2026 18:15:10 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-05-19 17:57:47.609462
- Title: Scientific Logicality Enriched Methodology for LLM Reasoning: A Practice in Physics
- Title(参考訳): LLM推論のための科学的論理性強化手法:物理の実践
- Authors: Zhaoxin Yu, Nan Xu, Kun Chen, Jiahao Zhao, Lei Wang, Wenji Mao,
- Abstract要約: 我々は,Large Language Models (LLMs) の科学的推論に基づく内部論理性に関する最初の体系的な研究を行っている。
データ構築のために、学術文献から科学的問題を抽出し、強力な論理性を示す高品質なデータセットをサンプリングする。
1) LLM推論における科学的論理性を効果的に改善し, 2) 豊かな科学的論理性は科学的問題を解く上で重要な役割を担っている。
- 参考スコア(独自算出の注目度): 32.822972062156005
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: With the continuous advancement of reasoning abilities in Large Language Models (LLMs), their application to scientific reasoning tasks has gained significant research attention. Current research primarily emphasizes boosting LLMs' performance on scientific QA benchmarks by training on larger, more comprehensive datasets with extended reasoning chains. However, these approaches neglect the essence of the scientific reasoning process -- logicality, which is the rational foundation to ensure the validity of reasoning steps leading to reliable conclusions. In this work, we make the first systematic investigation into the internal logicality underlying LLM scientific reasoning, and develop a scientific logicality-enriched methodology, including a set of assessment criteria and data sampling methods for logicality-guided training, to improve the logical faithfulness as well as task performance. Further, we take physics, characterized by its diverse logical structures and formalisms, as an exemplar discipline to practise the above methodology. For data construction, we extract scientific problems from academic literature and sample a high-quality dataset exhibiting strong logicality. Experiments based on three different backbone LLMs reveal that: 1) the training data we constructed can effectively improve the scientific logicality in LLM reasoning; and 2) the enriched scientific logicality plays a critical role in solving scientific problems. Code is available at \href{https://github.com/ScienceOne-AI/PhysLogic}{https://github.com/ScienceOne-AI/PhysLogic}.
- Abstract(参考訳): 大規模言語モデル(LLM)における推論能力の継続的な進歩により、科学的推論タスクへの応用が注目されている。
現在の研究は、科学的なQAベンチマークにおけるLLMのパフォーマンス向上に重点を置いている。
しかし、これらのアプローチは科学的推論プロセスの本質、すなわち論理性を無視しており、これは信頼できる結論に至る推論ステップの妥当性を保証する合理的な基礎である。
本研究では,LLMの科学的推論を基礎とした内部論理性に関する最初の体系的な研究を行い,論理性指導訓練のための評価基準とデータサンプリング手法を含む科学的論理性強化手法を開発し,その論理性の向上と課題性能について考察する。
さらに、上記の方法論を実践するための模範的な規律として、その多様な論理構造と形式主義を特徴とする物理学を採っている。
データ構築のために、学術文献から科学的問題を抽出し、強力な論理性を示す高品質なデータセットをサンプリングする。
3つの異なるバックボーンLLMに基づく実験により、以下のことが判明した。
1)LLM推論における科学的論理性を効果的に向上する訓練データ、及び
2) 豊かな科学的論理性は, 科学的問題を解決する上で重要な役割を担っている。
コードは \href{https://github.com/ScienceOne-AI/PhysLogic}{https://github.com/ScienceOne-AI/PhysLogic} で公開されている。
関連論文リスト
- PRL-Bench: A Comprehensive Benchmark Evaluating LLMs' Capabilities in Frontier Physics Research [43.71141859083647]
PRL-Benchは、エンドツーエンドの物理研究を実行するためのベンチマークである。
天体物理学、凝縮物質物理学、高エネルギー物理学、量子情報、統計物理学をカバーしている。
ベンチマークの各タスクは、真の科学研究のコア特性を再現するように設計されている。
論文 参考訳(メタデータ) (2026-04-16T16:22:04Z) - Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning [53.82037883518254]
SciReasは、科学的推論タスクのための様々なベンチマークスイートである。
次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:04:23Z) - Can Theoretical Physics Research Benefit from Language Agents? [50.57057488167844]
大規模言語モデル(LLM)は、様々な領域にわたって急速に進歩しているが、理論物理学研究への応用はまだ成熟していない。
このポジションペーパーは、LLMエージェントが、ドメイン知識やツールボックスと適切に統合された場合、理論的、計算的、応用物理学を加速するのに役立つと主張している。
マルチモーダルデータを処理し、検証可能な仮説を提案し、設計実験を行う物理特殊化LSMを構想する。
論文 参考訳(メタデータ) (2025-06-06T16:20:06Z) - LLM and Simulation as Bilevel Optimizers: A New Paradigm to Advance Physical Scientific Discovery [141.39722070734737]
本稿では,大規模言語モデルの知識駆動型抽象推論能力をシミュレーションの計算力で強化することを提案する。
本稿では,2段階最適化フレームワークであるSGA(Scientific Generative Agent)を紹介する。
法発見と分子設計における枠組みの有効性を実証するための実験を行った。
論文 参考訳(メタデータ) (2024-05-16T03:04:10Z) - Towards LogiGLUE: A Brief Survey and A Benchmark for Analyzing Logical Reasoning Capabilities of Language Models [56.34029644009297]
大規模言語モデル(LLM)は、形式的知識表現(KR)システムの様々な制限を克服する能力を示した。
LLMは誘導的推論において最も優れているが、誘導的推論では最も効果が低い。
モデルの性能を評価するため,シングルタスクトレーニング,マルチタスクトレーニング,および「チェーンオブ思考」知識蒸留細調整技術について検討した。
論文 参考訳(メタデータ) (2023-10-02T01:00:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。