論文の概要: Reasoning With a Star: A Heliophysics Dataset and Benchmark for Agentic Scientific Reasoning
- arxiv url: http://arxiv.org/abs/2511.20694v1
- Date: Sun, 23 Nov 2025 18:13:25 GMT
- ステータス: 翻訳完了
- システム内更新日: 2025-11-27 18:37:58.756863
- Title: Reasoning With a Star: A Heliophysics Dataset and Benchmark for Agentic Scientific Reasoning
- Title(参考訳): 星との推論:ヘリオフィジカルデータセットとエージェント科学的推論のためのベンチマーク
- Authors: Kevin Lee, Russell Spiewak, James Walsh,
- Abstract要約: 今回,新たに提案されたレアソン・ウィズ・ア・スター(Reasoning With a Star)について紹介する。
我々のデータは、スターサマースクール問題セットによる大気研究リビングのためのNational Aeronautics and Space Administration & University Corporationから作成されています。
プログラムグレーダは、単位認識数値寛容、記号同値、スキーマ検証を用いて予測をチェックする。
- 参考スコア(独自算出の注目度): 2.557701655942411
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: Scientific reasoning through Large Language Models in heliophysics involves more than just recalling facts: it requires incorporating physical assumptions, maintaining consistent units, and providing clear scientific formats through coordinated approaches. To address these challenges, we present Reasoning With a Star, a newly contributed heliophysics dataset applicable to reasoning; we also provide an initial benchmarking approach. Our data are constructed from National Aeronautics and Space Administration & University Corporation for Atmospheric Research Living With a Star summer school problem sets and compiled into a readily consumable question-and-answer structure with question contexts, reasoning steps, expected answer type, ground-truth targets, format hints, and metadata. A programmatic grader checks the predictions using unit-aware numerical tolerance, symbolic equivalence, and schema validation. We benchmark a single-shot baseline and four multi-agent patterns, finding that decomposing workflows through systems engineering principles outperforms direct prompting on problems requiring deductive reasoning rather than pure inductive recall.
- Abstract(参考訳): ヘリオフィックにおけるLarge Language Modelsによる科学的推論は、単に事実を思い出すだけでなく、物理的仮定を取り入れ、一貫した単位を維持し、協調したアプローチを通じて明確な科学的形式を提供する必要がある。
これらの課題に対処するため、新たに提案されたヘリオフィジカルデータセットであるReasoning With a Starを推論に適用し、初期ベンチマーク手法も提供する。
我々のデータは、National Aeronautics and Space Administration & University Corporation for Atmospheric Research Living With a Star summer school problem set to a easy besumable question-and-Awer structure with question contexts, reasoning steps, expected answer type, ground-truth target, format hints and metadata。
プログラムグレーダは、単位認識数値寛容、記号同値、スキーマ検証を用いて予測をチェックする。
単発のベースラインと4つのマルチエージェントパターンをベンチマークした結果、システムエンジニアリングの原則によるワークフローの分解は、純粋な帰納的リコールではなく、帰納的推論を必要とする問題を直接的に促すことよりも優れていることがわかった。
関連論文リスト
- ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.46980291324148]
ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。
主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。
先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
論文 参考訳(メタデータ) (2025-11-18T11:13:06Z) - Deep Learning in Astrophysics [0.2700171473617699]
深層学習は天文学の様々な視点を生み出し、このレビューを動機づける支持者と懐疑主義者の間で議論が続いている。
ニューラルネットワークが古典的な統計を補完し、現代のサーベイのためのデータ分析ツールキットを拡張する方法について検討する。
このレビューでは、ディープラーニングがアーキテクチャ設計を通じてドメイン知識をどのように組み入れているかを示す。
論文 参考訳(メタデータ) (2025-10-12T17:31:46Z) - PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-03T17:09:03Z) - Who Gets Cited Most? Benchmarking Long-Context Language Models on Scientific Articles [81.89404347890662]
SciTrekは、科学論文を用いた大規模言語モデル(LLM)の長文推論能力を評価するために設計された、新しい質問応答ベンチマークである。
本分析により,モデルの基本的数値演算を行ない,特定の情報を長い文脈で正確に特定する能力において,系統的な欠点が明らかとなった。
論文 参考訳(メタデータ) (2025-09-25T11:36:09Z) - A Survey of Scientific Large Language Models: From Data Foundations to Agent Frontiers [251.23085679210206]
科学大規模言語モデル(Sci-LLMs)は、科学研究において、知識の表現、統合、適用の方法を変えつつある。
この調査は、モデルとその基盤となるデータ基板の共進化として、Sci-LLMの開発を再考する。
我々は、科学的データの統一された分類法と、科学的知識の階層的なモデルを定式化する。
論文 参考訳(メタデータ) (2025-08-28T18:30:52Z) - PhysGym: Benchmarking LLMs in Interactive Physics Discovery with Controlled Priors [29.988641224102164]
textscPhysGymは、LSMベースの科学的推論を厳格に評価するための、新しいベンチマークスイートとシミュレーションプラットフォームである。
textscPhysGymの主な貢献は、エージェントに提供された事前知識のレベルを高度に制御することにある。
論文 参考訳(メタデータ) (2025-07-21T12:28:10Z) - PhysNLU: A Language Resource for Evaluating Natural Language
Understanding and Explanation Coherence in Physics [1.4123037008246728]
本稿では,言語モデルの性能を評価するために開発されたデータセットの集合について述べる。
データの解析は、物理学の談話で最もよく見られる方程式やサブディシデントを明らかにする。
物理におけるコヒーレンス関連タスクによって現代言語モデルがどのように挑戦されているかを示すベースラインを提示する。
論文 参考訳(メタデータ) (2022-01-12T02:32:40Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。