論文の概要: SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence
- arxiv url: http://arxiv.org/abs/2601.04770v1
- Date: Thu, 08 Jan 2026 09:45:58 GMT
- ステータス: 翻訳完了
- システム内更新日: 2026-01-09 17:01:53.143147
- Title: SciIF: Benchmarking Scientific Instruction Following Towards Rigorous Scientific Intelligence
- Title(参考訳): SciIF:厳格な科学インテリジェンスを目指す科学教育のベンチマーク
- Authors: Encheng Su, Jianyu Wu, Chen Tang, Lintao Wang, Pengze Li, Aoran Wang, Jinouwen Zhang, Yizhou Wang, Yuan Meng, Xinzhu Ma, Shixiang Tang, Houqiang Li,
- Abstract要約: 科学的妥当性を確立する制約に厳格に固執しながら、問題を解決する能力。
具体的には,大学レベルの問題と制約の固定されたカタログをペアにすることで,この能力を評価するマルチディシプリンのベンチマークであるSciIFを紹介する。
SciIFは、解の正当性と多拘束性の両方を測定することにより、構成的推論失敗のきめ細かい診断を可能にする。
- 参考スコア(独自算出の注目度): 60.202862987441684
- License: http://creativecommons.org/licenses/by/4.0/
- Abstract: As large language models (LLMs) transition from general knowledge retrieval to complex scientific discovery, their evaluation standards must also incorporate the rigorous norms of scientific inquiry. Existing benchmarks exhibit a critical blind spot: general instruction-following metrics focus on superficial formatting, while domain-specific scientific benchmarks assess only final-answer correctness, often rewarding models that arrive at the right result with the wrong reasons. To address this gap, we introduce scientific instruction following: the capability to solve problems while strictly adhering to the constraints that establish scientific validity. Specifically, we introduce SciIF, a multi-discipline benchmark that evaluates this capability by pairing university-level problems with a fixed catalog of constraints across three pillars: scientific conditions (e.g., boundary checks and assumptions), semantic stability (e.g., unit and symbol conventions), and specific processes(e.g., required numerical methods). Uniquely, SciIF emphasizes auditability, requiring models to provide explicit evidence of constraint satisfaction rather than implicit compliance. By measuring both solution correctness and multi-constraint adherence, SciIF enables finegrained diagnosis of compositional reasoning failures, ensuring that LLMs can function as reliable agents within the strict logical frameworks of science.
- Abstract(参考訳): 大規模言語モデル(LLM)が一般知識検索から複雑な科学的発見へと移行するにつれ、その評価基準は科学的調査の厳密な規範も取り入れなければならない。
一般的なインストラクションフォローのメトリクスは表面的なフォーマッティングに重点を置いているのに対して、ドメイン固有の科学的ベンチマークは最終回答の正しさのみを評価しており、しばしば正しい結果に達するモデルに間違った理由で報いる。
このギャップに対処するために, 科学的妥当性を確立する制約に厳格に固執しつつ, 問題を解決する能力について, 科学的指導を紹介する。
具体的には,学術的条件(例えば,境界チェックと仮定),意味安定性(例えば,単位と記号規則),特定のプロセス(例えば,必要な数値法)の3つの柱にまたがる制約の固定されたカタログと,大学レベルの問題をペアリングすることで,この能力を評価するマルチディシプリンのベンチマークであるSciIFを紹介する。
ユニークなことに、SciIFは監査性を強調しており、暗黙のコンプライアンスよりも制約満足の明確な証拠をモデルに提供する必要がある。
SciIFは、解の正当性と多拘束性の両方を測定することにより、構成的推論失敗のきめ細かい診断を可能にし、科学の厳密な論理的枠組みの中でLLMが信頼できるエージェントとして機能することを保証する。
関連論文リスト
- Probing Scientific General Intelligence of LLMs with Scientist-Aligned Workflows [203.3527268311731]
PIM(Practical Inquiry Model)に基づく運用SGI定義を提案する。
深層研究、アイデア生成、ドライ/ウェット実験、実験推論の4つのタスクを通じて運用しています。
私たちのPIMによる定義、ワークフロー中心のベンチマーク、実証的な洞察は、真に科学的な発見に参加するAIシステムの基盤を確立します。
論文 参考訳(メタデータ) (2025-12-18T12:44:36Z) - ATLAS: A High-Difficulty, Multidisciplinary Benchmark for Frontier Scientific Reasoning [118.46980291324148]
ATLASは、約800のオリジナルの問題からなる大規模で、高精度で、学際横断的な評価スイートである。
主な特徴は次のとおりである。 テストデータの漏洩を防ぐために新しく作成されたり、実質的に適応されたすべての質問を含む、高いオリジン性と汚染抵抗。
先行モデルに関する予備的な結果は、ATLASが先進的な科学的推論能力の差別化に有効であることを証明している。
論文 参考訳(メタデータ) (2025-11-18T11:13:06Z) - PRISM-Physics: Causal DAG-Based Process Evaluation for Physics Reasoning [57.868248683256574]
PRISM-Physicsはプロセスレベルの評価フレームワークであり、複雑な物理推論問題のベンチマークである。
解は公式の有向非巡回グラフ(DAG)として表される。
その結果,評価フレームワークは人的専門家のスコアと一致していることがわかった。
論文 参考訳(メタデータ) (2025-10-03T17:09:03Z) - SCI-Verifier: Scientific Verifier with Thinking [37.08904000514563]
大規模言語モデル(LLM)は、科学的推論にますます応用されている。
科学的領域における既存の検証研究は2つの大きな限界に悩まされている。
データレベルとモデルレベルでのソリューションを提案する。
論文 参考訳(メタデータ) (2025-09-29T04:58:43Z) - Demystifying Scientific Problem-Solving in LLMs by Probing Knowledge and Reasoning [53.82037883518254]
SciReasは、科学的推論タスクのための様々なベンチマークスイートである。
次に、科学的タスクにおける推論と知識の異なる役割を研究するための探索フレームワークであるKRUXを提案する。
論文 参考訳(メタデータ) (2025-08-26T17:04:23Z) - On the Rigour of Scientific Writing: Criteria, Analysis, and Insights [15.055289544883534]
リグールは、結果と結果の妥当性と妥当性を保証するため、科学的研究に不可欠である。
我々は、厳格な基準を自動的に識別し定義するためのボトムアップなデータ駆動フレームワークを導入します。
我々のフレームワークはドメインに依存しないので、様々な分野の科学的厳密さの評価に合わせることができる。
論文 参考訳(メタデータ) (2024-10-07T12:22:06Z) - SCITAB: A Challenging Benchmark for Compositional Reasoning and Claim
Verification on Scientific Tables [68.76415918462418]
本報告では,1.2Kの専門的な科学的クレームからなる,挑戦的な評価データセットであるSCITABについて述べる。
広範な評価を通じて、SCITABは最先端のモデルに重大な課題をもたらすことを示した。
SCITABは,表の接地,主張のあいまいさ,構成的推論など,いくつかの独特な課題を明らかにした。
論文 参考訳(メタデータ) (2023-05-22T16:13:50Z)
関連論文リストは本サイト内にある論文のタイトル・アブストラクトから自動的に作成しています。
指定された論文の情報です。
本サイトの運営者は本サイト(すべての情報・翻訳含む)の品質を保証せず、本サイト(すべての情報・翻訳含む)を使用して発生したあらゆる結果について一切の責任を負いません。