論文の概要: Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning
- arxiv url: http://arxiv.org/abs/2508.19202v1
- Date: Tue, 26 Aug 2025 17:04:23 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-08-27 17:42:38.927556
- Title: Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning
- Title(参考訳): 知識と推論によるLLMの科学的問題解決
- Authors: Alan Li, Yixin Liu, Arpan Sarkar, Doug Downey, Arman Cohan,
- Abstract要約: SciReasは、科学的推論タスクのための様々なベンチマークスイートである。
次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
- 参考スコア(独自算出の注目度): 53.82037883518254
- License: http://arxiv.org/licenses/nonexclusive-distrib/1.0/
- Abstract: Scientific problem solving poses unique challenges for LLMs, requiring both deep domain knowledge and the ability to apply such knowledge through complex reasoning. While automated scientific reasoners hold great promise for assisting human scientists, there is currently no widely adopted holistic benchmark for evaluating scientific reasoning, and few approaches systematically disentangle the distinct roles of knowledge and reasoning in these tasks. To address these gaps, we introduce SciReas, a diverse suite of existing benchmarks for scientific reasoning tasks, and SciReas-Pro, a selective subset that requires more complex reasoning. Our holistic evaluation surfaces insights about scientific reasoning performance that remain hidden when relying on individual benchmarks alone. We then propose KRUX, a probing framework for studying the distinct roles of reasoning and knowledge in scientific tasks. Combining the two, we conduct an in-depth analysis that yields several key findings: (1) Retrieving task-relevant knowledge from model parameters is a critical bottleneck for LLMs in scientific reasoning; (2) Reasoning models consistently benefit from external knowledge added in-context on top of the reasoning enhancement; (3) Enhancing verbalized reasoning improves LLMs' ability to surface task-relevant knowledge. Finally, we conduct a lightweight analysis, comparing our science-focused data composition with concurrent efforts on long CoT SFT, and release SciLit01, a strong 8B baseline for scientific reasoning.
- Abstract(参考訳): 科学的問題解決はLLMに固有の課題をもたらし、複雑な推論を通じて深いドメイン知識とそのような知識を適用する能力の両方を必要とする。
自動化された科学推論者は、人間の科学者を支援することを大いに約束するが、現在では、科学的推論を評価するための包括的なベンチマークが広く採用されておらず、これらのタスクにおける知識と推論の異なる役割を体系的に解体するアプローチはほとんどない。
これらのギャップに対処するために、科学推論タスクのための様々なベンチマークスイートであるSciReasと、より複雑な推論を必要とする選択サブセットであるSciReas-Proを紹介する。
私たちの総合的な評価は、個々のベンチマークのみに依存したままの科学的推論性能に関する洞察を表面化します。
次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
1)モデルパラメータからタスク関連知識を取得することは、科学的推論においてLLMにとって重要なボトルネックであり、(2)推論の強化の上に外部知識を付加することで、モデルが一貫して利益を得る、(3)言語的推論の強化は、タスク関連知識を探索するLLMの能力を向上させる。
最後に、科学に焦点を当てたデータ構成と長いCoT SFTの同時処理を比較し、科学的推論のための強力な8BベースラインであるSciLit01をリリースする。
関連論文リスト
- ResearchBench: Benchmarking LLMs in Scientific Discovery via Inspiration-Based Task Decomposition [67.26124739345332]
大規模言語モデル(LLM)は科学的研究を支援する可能性を示しているが、高品質な研究仮説を発見する能力はいまだ検討されていない。
我々は,LLMを科学的発見のサブタスクのほぼ十分セットで評価するための,最初の大規模ベンチマークを紹介する。
学術論文から重要コンポーネント(研究質問、背景調査、インスピレーション、仮説)を抽出する自動フレームワークを開発する。
論文 参考訳(メタデータ) (2025-03-27T08:09:15Z) - Auto-Bench: An Automated Benchmark for Scientific Discovery in LLMs [23.608962459019278]
自然科学と社会科学の両方において科学的発見のための大規模言語モデル(LLM)を評価するための新しいベンチマークを導入する。
我々のベンチマークは因果グラフ発見の原理に基づいており、隠れ構造を発見し、有効な正当性を生成することを含む最適な決定を行うためのモデルに挑戦する。
我々は,GPT-4,Gemini,Qwen,Claude,Llamaを含む最先端のLCMを評価し,問題を複雑化するにつれて性能低下を観測した。
論文 参考訳(メタデータ) (2025-02-21T05:35:20Z) - Position: Multimodal Large Language Models Can Significantly Advance Scientific Reasoning [51.11965014462375]
MLLM(Multimodal Large Language Models)は、テキスト、画像、その他のモダリティを統合する。
本稿では,MLLMが数学,物理,化学,生物学などの分野にまたがる科学的推論を著しく前進させることができることを論じる。
論文 参考訳(メタデータ) (2025-02-05T04:05:27Z) - SciLitLLM: How to Adapt LLMs for Scientific Literature Understanding [22.131371019641417]
大言語モデルの成功にもかかわらず、科学文献理解の課題に直面している。
連続事前学習(CPT)と教師付き微調整(SFT)を統合したハイブリッド戦略を提案する。
我々は科学文献理解に特化したLLMスイートSciLitLLMを提案する。
論文 参考訳(メタデータ) (2024-08-28T05:41:52Z) - SciKnowEval: Evaluating Multi-level Scientific Knowledge of Large Language Models [35.98892300665275]
SciKnowEvalベンチマーク(SciKnowEval benchmark)は,5つの科学的知識の段階にわたる大規模言語モデル(LLM)を評価するフレームワークである。
これらのレベルは、記憶、理解、推論、識別、応用を含むLLMにおける科学知識の幅と深さを評価することを目的としている。
ゼロショットと少数ショットのプロンプト戦略を用いて、26の高度なオープンソースおよびプロプライエタリなLCMをベンチマークした。
論文 参考訳(メタデータ) (2024-06-13T13:27:52Z) - SciBench: Evaluating College-Level Scientific Problem-Solving Abilities of Large Language Models [70.5763210869525]
拡張ベンチマークスイートSciBench for Large Language Model (LLM)を導入する。
SciBenchには、数学、化学、物理学の分野から、さまざまな大学レベルの科学的問題を含むデータセットが含まれている。
その結果、現在のLLMは満足のいく性能を達成できないことが判明し、全体のスコアは43.22%に過ぎなかった。
論文 参考訳(メタデータ) (2023-07-20T07:01:57Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。